速報：8月21日にPixel 10とPixel Watch 4を発表へ。Googleが新製品発表イベント開催

ニュース

OpenAI、最新AIモデル「o3」発表。推論能力を大幅強化、人間に匹敵するパフォーマンスも

Yusuke Sakakura

Yusuke Sakakura

ブログメディア「携帯総合研究所」を運営しています。学生時代に開設して今年が16年目。スマートフォンの気になる最新情報をいち早くお届けします。各キャリア・各メーカーの発表会に参加し、取材も行います。SEの経験を活かして料金シミュレーターも開発しています。

2024/12/21 11:45

OpenAI、最新AIモデル「o3」発表。推論能力を大幅強化、人間に匹敵するパフォーマンスも

OpenAIが最新のAIモデル「o3」を発表しました。

複雑な問題に対する推論能力を強化したもので、現行のo1に比べてあらゆる能力が向上し、人間に匹敵、または特定の分野でそれ以上の能力を獲得しています。

なお、トレーニング後のさらなる改良が必要とされており、安全性の検証を目的にテスターを募集しています。安全性の検証を経て、軽量版のo3-miniを2025年1月末に公開する予定です。

o3とは？

OpenAIのoシリーズは、与えられた情報から論理的な結論を導き出す「推論能力」に特化したモデルです。「天気予報が雨」という情報から「傘を持つべき」といった結論を導き出す能力が推論の一例です。

今回発表された最新モデル「o3」では、この推論能力をさらに向上させ、より複雑な問題を解くことが可能になりました。

なお、「o3」は本来であれば「o2」として登場する予定でしたが、イギリスの携帯キャリアO2との競合を避けるために「o3」としてリリースされます。

人間に匹敵するパフォーマンス

o3の性能は化学、数学、プログラミングなどの分野で特に優れた性能を発揮します。

コーディングテストでは、前モデルを22.8%上回り、競技プログラミングではOpenAIの最高科学者をも凌ぐ成績を記録しました。

コーディング能力の比較

コーディング能力の比較

最難関の数学コンテストの1つであるAIME 2024では、わずか1問のミスで正解率は96.7%を達成。大学院レベルの生物学、物理学、化学の問題に対するベンチマークでも87.7%の正解率を記録。

数学と化学の問題に対する能力の比較

数学と化学の問題に対する能力の比較

さらに、他のモデルが2%すら解けない最難関の数学と推論問題においてo3は25.2%と他を圧倒しています。

数学に対する能力の比較

数学に対する能力の比較

AIモデルが初めて見る問題を解く推論能力をテストする「ARC-AGI」では、人間のパフォーマンスに匹敵することも確認されています。

ARC-AGIでは人間のスコア85%に匹敵する

ARC-AGIでは人間のスコア85%に匹敵する

今月、Googleも最新のAIモデル「Gemini 2.0」を発表し、ウェブとアプリですでに利用できます。Gemini 2.0は、推論能力の強化に加え、画像生成や言語理解といった幅広いタスクで高い性能を発揮し、スマホの画面に表示されている内容を認識してゲームの攻略方法を提案するなど、注目を集めています。

AIの進化をめぐる競争はますます激化しており、2025年もスマートフォンをはじめとするさまざまなデバイスでAIがさらに活用され、日常生活に溶け込むスピードが加速すると予想されます。

投稿規約

チャットサポートではないので質問は必ず記事を読んでから投稿してください。
迅速な回答のために、質問する際は状況を細かく書いてください。最低限、画面にどういったメッセージが表示されているのかは必要です。
コメントに誹謗中傷を含む場合は、発信者情報開示請求を行います。
攻撃的・侮辱的・過激・不快な表現を含む場合はIPアドレスを公開します。
VPNを使った書き込みおよび連投は承認されません。

コメントを残す返信をやめる