Googleがエージェント時代を見据えた新しいAIモデル「Gemini 2.0」を発表しました。
AIエージェントは、AIが人間の代理人となって、ユーザーの指示に従い、より複雑なタスクを実行できる次世代AIです。
Googleは「2025年こそがエージェントベースの時代の真の始まり」と強調しており、Gemini 2.0はその未来を切り拓く第一歩になりそうです。
新しいエージェント体験を可能にするGemini 2.0
Gemini 2.0の最初のモデル「Gemini 2.0 Flash」では、様々な改良の連携によって新しいエージェント体験が可能になります。
- ネイティブなユーザーインターフェース操作機能
- マルチモーダル推論
- 長文脈理解
- 複雑な指示への追従と計画
- 複合的な関数呼び出し
- ネイティブなツール利用
- レイテンシの改善
Project Astra
Androidで動作するProject Astraは、単純な応答に留まらず、ユーザーの要望を理解し、タスクを解決に導くAIエージェントです。
今年5月には、リアルタイムで周囲の状況や物体を識別・記憶し、どこに行ったかわからなくなったメガネの場所を教えるデモが披露されました。
さらに最新のデモでは、アパートに入る際に必要な暗証番号をメールから検索して、再入室のために記憶するよう依頼したり、服のタグをカメラにかざして正しい洗濯方法を教えるよう依頼するシーンが紹介されています。
Gemini 2.0ベースのProject Astraは、複数の言語や混合言語での会話にも対応。アクセントや珍しい単語の理解度も向上しています。
また、セッション中は最大10分間の記憶保持が可能になったことで、より多く過去の会話を記憶することで、一人ひとりに最適化された体験の提供が可能に。さらに人間と会話しているかのような自然なスピードで言語を理解することもできます。
Project Mariner
Project Marinerでは、AIがブラウザに表示された情報を理解して、代理で操作を行うこともできます。
Googleの例では、ユーザーの指示をもとにアーティストを調べて絵画を検索し、購入までの一連の流れをAIが代行する様子が紹介されています。
旅行の計画を立てるときに、最安値の航空券を探すよう指示すれば、Gemini 2.0が複数の旅行サイトを検索して候補を提案し、最適なプランの比較・購入手続きまでサポートすることも将来的には可能になるかもしれません。
なお、ブラウザにはタブがありますが、アクティブになっているタブのみを対象に文字入力やスクロール、クリックといった操作を依頼することも可能です。購入など重要な操作の実行前には、必ずユーザーの最終確認が入るため安心して利用できます。
ゲームの仮想世界をナビゲート
Gemini 2.0はブラウザの操作に加えて、ゲームの仮想世界でも能力を発揮します。
例えば、キャラを移動して戦略を練るタクティスRPGでは、攻撃の順番や配置が勝利のカギを握ります。攻略に迷ったときは「どこから攻めたらいい?」とGemini 2.0に聞くだけで、ゲーム画面と敵の配置を認識して「南側から攻撃するのがおすすめ」と適切なアドバイスをしてくれます。
ウェブ版Geminiではすでに利用可能
Gemini 2.0では、大幅な低遅延の改善と性能強化も実現しています。
特にPython、Java、C++、JS、Goにおけるコード生成の精度は92.9%に到達するなど大きく改善されました。また、「Jules」というエージェントによって、エラー(バッドコード)の発見や修正をサポートしてくれるため、プログラミングも大幅に効率化できそうです。
Gemini 2.0は開発者と一部のテスターに向けて公開されています。GeminiやGoogle検索をはじめとするサービスへの実装も迅速に進められています。
例えば、検索ページのトップに表示されるAIによる概要にもGemini 2.0が導入されます。高度な数式、マルチモーダルに対応したクエリ、コーディングなど、より複雑なトピックや複数行の質問にも対応できるようになります。
現在は限定的にテストされており、2025年の初頭に広範囲に展開される予定です。
ウェブ版のGeminiでは、チャットに最適化された試験運用版のモデルを利用できます。Geminiアプリでもまもなく利用できるようになります。
コメントを残す