ニュース

OpenAIが新モデルGPT-4oを発表。人間と同速度の会話速度を実現、無料で利用可能に

Yusuke Sakakura

ブログメディア「携帯総合研究所」を運営しています。学生時代に開設して今年が16年目。スマートフォンの気になる最新情報をいち早くお届けします。各キャリア・各メーカーの発表会に参加し、取材も行います。SEの経験を活かして料金シミュレーターも開発しています。

2024/05/14 9:07

OpenAIが新モデルGPT-4oを発表。人間と同速度の会話速度を実現、無料で利用可能に

OpenAIが最新のフラグシップモデル「GPT-4o」を発表しました。

読み方はジーピーティーフォーオーで、oは“あらゆる”を意味するomni(オムニ)の省略です。

GPT-4oは、GPT-4レベルのインテリジェンスさを維持しつつ、より高速で、テキスト・音声・視覚のあらゆる機能を向上させたモデルとして登場します。

人間とPCがもっと自然に対話するための一歩

OpenAIは、GPT-4oについて“もっと自然に、人間とコンピューターが対話するための一歩”と説明し、なかでも大胆にアピールしたのが音声入力の向上です。

これまでChatGPTにおける音声モードは、GPT-3.5では平均2.8秒、GPT-4で平均5.4秒の待ち時間がありましたが、GPT-4oでは人間の応答時間とほぼ同じ最短232ミリ秒、平均320ミリ秒まで劇的に短縮されています。

OpenAIによれば、これまでの音声モードでは、シンプルなモデルが音声をテキストに書き起こし→GPT-3.5/GPT-4がテキストを取り込んでテキストを出力→シンプルなモデルがテキストを音声に変換、といった3段階の処理行っていたことで時間がかかるほか、モデルが第1リソースとなる声を直接参照できずに必要な情報が失われていたとのこと。

一方で新しいGPT-4oでは、テキスト・視覚・音声にまたがる単一の新しいモデルがエンドツーエンドで訓練されており、すべての入力/出力が同じニューラルネットワークで処理されるため、高速かつ声に表れる感情の読み取りにも優れています。

音声だけでなくGPT-4oは既存のどのモデルよりも画像の理解度が高く、議論に優れています。

例えば、メニューの写真を撮影してGPT-4oに話しかけて翻訳したり、料理の歴史や意義について学んだり、おすすめの料理を教えてもらうことも可能。

将来的には、より自然なリアルタイムの音声会話や、リアルタイムの動画でChatGPTと会話できるような改良も予定しており、例えば、ChatGPTにスポーツの試合中継を見せてルールを解説してもらえるとのこと。

英語とコードのテキストにおいてはCPT-4 Turboの性能に匹敵し、非英語言語のテキストにおいては大幅に改善。APIもはるかに高速で50%も安価に利用できると案内されています。

GPT-4oは日本語を含む50言語に対応。テキストや画像機能は今日から利用できます。音声機能は数週間以内にアルファ版が提供される予定。

なお、GPT-4はChatGPT Plusに加入する有料ユーザーのみ利用できましたが、GPT-4oはすべてのChatGPT無料ユーザーに今後数週間で提供されます。

ChatGPT Plusユーザーは利用上限が無料ユーザーの最大5倍に設定されます。