- OpenAIは、人間とPCが自然に対話するため新版GPT-4oを紹介、音声入力機能が改善。
- GPT-4oでは音声モードの応答時間が最短232ミリ秒に短縮、モデル全体の処理も高速化。
- GPT-4oは日本語を含む50言語に対応し、画像理解度も高く、無料ユーザーにも提供予定。
OpenAIが最新のフラグシップモデル「GPT-4o」を発表しました。
読み方はジーピーティーフォーオーで、oは“あらゆる”を意味するomni(オムニ)の省略です。
GPT-4oは、GPT-4レベルのインテリジェンスさを維持しつつ、より高速で、テキスト・音声・視覚のあらゆる機能を向上させたモデルとして登場します。
人間とPCがもっと自然に対話するための一歩
OpenAIは、GPT-4oについて“もっと自然に、人間とコンピューターが対話するための一歩”と説明し、なかでも大胆にアピールしたのが音声入力の向上です。
これまでChatGPTにおける音声モードは、GPT-3.5では平均2.8秒、GPT-4で平均5.4秒の待ち時間がありましたが、GPT-4oでは人間の応答時間とほぼ同じ最短232ミリ秒、平均320ミリ秒まで劇的に短縮されています。
OpenAIによれば、これまでの音声モードでは、シンプルなモデルが音声をテキストに書き起こし→GPT-3.5/GPT-4がテキストを取り込んでテキストを出力→シンプルなモデルがテキストを音声に変換、といった3段階の処理行っていたことで時間がかかるほか、モデルが第1リソースとなる声を直接参照できずに必要な情報が失われていたとのこと。
一方で新しいGPT-4oでは、テキスト・視覚・音声にまたがる単一の新しいモデルがエンドツーエンドで訓練されており、すべての入力/出力が同じニューラルネットワークで処理されるため、高速かつ声に表れる感情の読み取りにも優れています。
音声だけでなくGPT-4oは既存のどのモデルよりも画像の理解度が高く、議論に優れています。
例えば、メニューの写真を撮影してGPT-4oに話しかけて翻訳したり、料理の歴史や意義について学んだり、おすすめの料理を教えてもらうことも可能。
将来的には、より自然なリアルタイムの音声会話や、リアルタイムの動画でChatGPTと会話できるような改良も予定しており、例えば、ChatGPTにスポーツの試合中継を見せてルールを解説してもらえるとのこと。
英語とコードのテキストにおいてはCPT-4 Turboの性能に匹敵し、非英語言語のテキストにおいては大幅に改善。APIもはるかに高速で50%も安価に利用できると案内されています。
GPT-4oは日本語を含む50言語に対応。テキストや画像機能は今日から利用できます。音声機能は数週間以内にアルファ版が提供される予定。
なお、GPT-4はChatGPT Plusに加入する有料ユーザーのみ利用できましたが、GPT-4oはすべてのChatGPT無料ユーザーに今後数週間で提供されます。
ChatGPT Plusユーザーは利用上限が無料ユーザーの最大5倍に設定されます。
コメントを残す