技術的タスクにおけるAIと人間のパフォーマンスの視覚化

ビジネス

2025.04.29

ソース：https://www.zerohedge.com/technology/visualizing-ai-vs-human-performance-technical-tasks

人間と機械の推論のギャップは急速に縮まっています。

この1年、AIシステムは急速な進歩を続けており、これまで苦手だった高度な数学や視覚的推論などの技術的タスクにおいて、人間の能力を上回る成果を上げています。

この図は、Visual Capitalistのケイラ・チュー氏が、8つのAIベンチマーク（タスクを含む）で測定されたAIシステムのパフォーマンスを、人間の基準値と比較して視覚化したものです。

画像分類
視覚的推論
中級レベルの読解
英語理解
マルチタスク言語理解
競技レベルの数学
博士課程レベルの科学問題
マルチモーダル理解と推論

AIモデルは技術的なタスクにおいて人間を凌駕

以下では、近年、さまざまな技術的タスクにおいて、AIモデルが人間のベースラインと比較してどのようなパフォーマンスを発揮しているかを紹介いたします。

年	人間の基準値（100%）に対するパフォーマンス	タスク
2012	89.15%	画像分類
2013	91.42%	画像分類
2014	96.94%	画像分類
2015	99.47%	画像分類
2016	100.74%	画像分類
2016	80.09%	視覚的推論
2017	101.37%	画像分類
2017	82.35%	中級レベルの読解力
2017	86.49%	視覚的推論
2018	102.85%	画像分類
2018	96.23%	中級レベルの読解力
2018	86.70%	視覚的推論
2019	103.75%	画像分類
2019	36.08%	マルチタスク言語理解
2019	103.27%	中級レベルの読解力
2019	94.21%	英語理解
2019	90.67%	視覚的推論
2020	104.11%	画像分類
2020	60.02%	マルチタスク言語理解
2020	103.92%	中級レベルの読解力
2020	99.44%	英語理解
2020	91.38%	視覚的推論
2021	104.34%	画像分類
2021	7.67%	競技レベルの数学
2021	66.82%	マルチタスク言語理解
2021	104.15%	中級レベルの読解力
2021	101.56%	英語理解
2021	102.48%	視覚的推論
2022	103.98%	画像分類
2022	57.56%	競技レベルの数学
2022	83.74%	マルチタスク言語理解
2022	101.67%	英語理解
2022	104.36%	視覚的推論
2023	47.78%	博士レベルの科学に関する質問
2023	93.67%	競技レベルの数学
2023	96.21%	マルチタスク言語理解
2023	71.91%	マルチモーダル理解と推論
2024	108.00%	博士レベルの科学に関する質問
2024	108.78%	競技レベルの数学
2024	102.78%	マルチタスク言語理解
2024	94.67%	マルチモーダル理解と推論
2024	101.78%	英語理解

ChatGPTからGeminiまで、世界の主要なAIモデルの多くは、さまざまな技術的タスクにおいて人間の基準を上回っています。

AIシステムがまだ人間に追いついていない唯一のタスクは、画像、チャート、図表など、複数の形式や分野にわたる処理と推論を伴うマルチモーダル理解と推論です。

しかし、その差は急速に縮まってきています。

2024年、OpenAIのo1モデルは、大学レベルの専門知識を必要とする多分野にわたるタスクを評価するベンチマークであるMMMUで78.2%のスコアを獲得しました。

これは、人間のベンチマークである82.6%をわずか4.4パーセント・ポイント下回っています。o1モデルは、すべてのAIモデルの中で最も幻覚発生率が低いモデルの1つでもあります。

これは2023年末のGoogle Geminiのスコア59.4%から大幅な向上であり、これらの技術的なタスクにおけるAIの性能の急速な向上を浮き彫りにしています。

AI Weekのすべてのコンテンツをご覧になりたい方は、Terzoが提供するAIコンテンツハブをご覧ください。

グローバルなAI業界について詳しく知りたい方は、AI特許競争で優位に立つ国々を視覚的に示したこのグラフィックをご覧ください。

コメント

タイトルとURLをコピーしました