技術的タスクにおけるAIと人間のパフォーマンスの視覚化

ビジネス

ソース:https://www.zerohedge.com/technology/visualizing-ai-vs-human-performance-technical-tasks

人間と機械の推論のギャップは急速に縮まっています。

この1年、AIシステムは急速な進歩を続けており、これまで苦手だった高度な数学や視覚的推論などの技術的タスクにおいて、人間の能力を上回る成果を上げています。

この図は、Visual Capitalistのケイラ・チュー氏が、8つのAIベンチマーク(タスクを含む)で測定されたAIシステムのパフォーマンスを、人間の基準値と比較して視覚化したものです。

  1. 画像分類
  2. 視覚的推論
  3. 中級レベルの読解
  4. 英語理解
  5. マルチタスク言語理解
  6. 競技レベルの数学
  7. 博士課程レベルの科学問題
  8. マルチモーダル理解と推論

AIモデルは技術的なタスクにおいて人間を凌駕

以下では、近年、さまざまな技術的タスクにおいて、AIモデルが人間のベースラインと比較してどのようなパフォーマンスを発揮しているかを紹介いたします。

人間の基準値(100%)に対するパフォーマンスタスク
201289.15%画像分類
201391.42%画像分類
201496.94%画像分類
201599.47%画像分類
2016100.74%画像分類
201680.09%視覚的推論
2017101.37%画像分類
201782.35%中級レベルの読解力
201786.49%視覚的推論
2018102.85%画像分類
201896.23%中級レベルの読解力
201886.70%視覚的推論
2019103.75%画像分類
201936.08%マルチタスク言語理解
2019103.27%中級レベルの読解力
201994.21%英語理解
201990.67%視覚的推論
2020104.11%画像分類
202060.02%マルチタスク言語理解
2020103.92%中級レベルの読解力
202099.44%英語理解
202091.38%視覚的推論
2021104.34%画像分類
20217.67%競技レベルの数学
202166.82%マルチタスク言語理解
2021104.15%中級レベルの読解力
2021101.56%英語理解
2021102.48%視覚的推論
2022103.98%画像分類
202257.56%競技レベルの数学
202283.74%マルチタスク言語理解
2022101.67%英語理解
2022104.36%視覚的推論
202347.78%博士レベルの科学に関する質問
202393.67%競技レベルの数学
202396.21%マルチタスク言語理解
202371.91%マルチモーダル理解と推論
2024108.00%博士レベルの科学に関する質問
2024108.78%競技レベルの数学
2024102.78%マルチタスク言語理解
202494.67%マルチモーダル理解と推論
2024101.78%英語理解

ChatGPTからGeminiまで、世界の主要なAIモデルの多くは、さまざまな技術的タスクにおいて人間の基準を上回っています。

AIシステムがまだ人間に追いついていない唯一のタスクは、画像、チャート、図表など、複数の形式や分野にわたる処理と推論を伴うマルチモーダル理解と推論です。

しかし、その差は急速に縮まってきています。

2024年、OpenAIのo1モデルは、大学レベルの専門知識を必要とする多分野にわたるタスクを評価するベンチマークであるMMMUで78.2%のスコアを獲得しました。

これは、人間のベンチマークである82.6%をわずか4.4パーセント・ポイント下回っています。o1モデルは、すべてのAIモデルの中で最も幻覚発生率が低いモデルの1つでもあります。

これは2023年末のGoogle Geminiのスコア59.4%から大幅な向上であり、これらの技術的なタスクにおけるAIの性能の急速な向上を浮き彫りにしています。

AI Weekのすべてのコンテンツをご覧になりたい方は、Terzoが提供するAIコンテンツハブをご覧ください。

グローバルなAI業界について詳しく知りたい方は、AI特許競争で優位に立つ国々を視覚的に示したこのグラフィックをご覧ください。

コメント

タイトルとURLをコピーしました