当メディアではアフィリエイト広告を使用しています

OpenAI、最新AIモデル「o3」発表。推論能力を大幅強化、人間に匹敵するパフォーマンスも

bio
Yusuke Sakakura公開日:2024/12/21 11:45
OpenAI、最新AIモデル「o3」発表。推論能力を大幅強化、人間に匹敵するパフォーマンスも

OpenAIが最新のAIモデル「o3」を発表しました。

複雑な問題に対する推論能力を強化したもので、現行のo1に比べてあらゆる能力が向上し、人間に匹敵、または特定の分野でそれ以上の能力を獲得しています。

なお、トレーニング後のさらなる改良が必要とされており、安全性の検証を目的にテスターを募集しています。安全性の検証を経て、軽量版のo3-miniを2025年1月末に公開する予定です。

o3とは?

OpenAIのoシリーズは、与えられた情報から論理的な結論を導き出す「推論能力」に特化したモデルです。「天気予報が雨」という情報から「傘を持つべき」といった結論を導き出す能力が推論の一例です。

今回発表された最新モデル「o3」では、この推論能力をさらに向上させ、より複雑な問題を解くことが可能になりました。

なお、「o3」は本来であれば「o2」として登場する予定でしたが、イギリスの携帯キャリアO2との競合を避けるために「o3」としてリリースされます。

人間に匹敵するパフォーマンス

o3の性能は化学、数学、プログラミングなどの分野で特に優れた性能を発揮します。

コーディングテストでは、前モデルを22.8%上回り、競技プログラミングではOpenAIの最高科学者をも凌ぐ成績を記録しました。

コーディング能力の比較
コーディング能力の比較

最難関の数学コンテストの1つであるAIME 2024では、わずか1問のミスで正解率は96.7%を達成。大学院レベルの生物学、物理学、化学の問題に対するベンチマークでも87.7%の正解率を記録。

数学と化学の問題に対する能力の比較
数学と化学の問題に対する能力の比較

さらに、他のモデルが2%すら解けない最難関の数学と推論問題においてo3は25.2%と他を圧倒しています。

数学に対する能力の比較
数学に対する能力の比較

AIモデルが初めて見る問題を解く推論能力をテストする「ARC-AGI」では、人間のパフォーマンスに匹敵することも確認されています。

ARC-AGIでは人間のスコア85%に匹敵する
ARC-AGIでは人間のスコア85%に匹敵する

今月、Googleも最新のAIモデル「Gemini 2.0」を発表し、ウェブとアプリですでに利用できます。Gemini 2.0は、推論能力の強化に加え、画像生成や言語理解といった幅広いタスクで高い性能を発揮し、スマホの画面に表示されている内容を認識してゲームの攻略方法を提案するなど、注目を集めています。

AIの進化をめぐる競争はますます激化しており、2025年もスマートフォンをはじめとするさまざまなデバイスでAIがさらに活用され、日常生活に溶け込むスピードが加速すると予想されます。

コメント
コメント利用規約

質問は必ず記事を読んでから投稿してください

質問する際は画面にどういったメッセージが表示されているのか、利用機種・OSのバージョンも書いてください。

誹謗中傷を含む場合は発信者情報開示請求します。

攻撃的・侮辱的・過激・不快な表現を含む場合はIPアドレスを明記して公開します

VPNを使った書き込みおよび連投は承認されません。

コメントを残す

(任意)

Recommendこんな記事も読まれています