画像生成AIがここまで進化。噂のiPhone Foldも描ける「ChatGPT Images 2.0」

Yusuke Sakakura

ブログメディア「携帯総合研究所」を運営しています。学生時代に開設して今年が16年目。スマートフォンの気になる最新情報をいち早くお届けします。各キャリア・各メーカーの発表会に参加し、取材も行います。SEの経験を活かして料金シミュレーターも開発しています。

2026/04/23 15:32

OpenAIが、最新の画像生成モデル「ChatGPT Images 2.0」の提供を開始しました。

1年前に公開されたChatGPT Imagesに比べて、細かな指示への追従、日本語を含むを正確に描き切る能力、複雑な構図を破綻なく生成する力が大幅に強化。AIで生成した画像感が抑えられ、そのまま使えるビジュアルを生成できます。

ウェブから最新情報を取り込んで画像生成

最大の特徴は、thinkingに初めて対応したことです。

ChatGPTでThinkingモデルまたはProモデルを選ぶと、ウェブで最新情報を取り込み、ひとつのプロンプトから複数の異なる画像を生成。出力結果を再確認するとしています。

これまでの画像生成は、プロンプトで与える情報がかなり重要で、指示の内容が仕上がりを大きく左右していました。

Images 2.0では、ウェブで情報を取り込むようになったことで、噂されている折りたたみiPhoneの画像を生成するときも、より短いプロンプトでイメージに近い画像を生成することができるようになりました。

Images 2.0で生成したiPhone Foldの予想画像

画像そのものの生成能力も大きく向上しました。特に進化したのが、細かな指示への追従性です。

物体を正しい位置に配置したり、複数の要素の関係性を自然に表現したり、情報量の多いテキストを破綻しにくく描いたりと、これまで苦手としやすかった部分が強化されています。さらに、最大2Kの解像度と、横長の3:1から縦長の1:3まで幅広いアスペクト比に対応し、構図の取り方や見せ方もより洗練されました。

これまで弱点だった文字の再現性も、大きく改善されました。

従来の画像生成では、日本語の文字が崩れたり、漢字のように見えても実際には読めない不自然な文字に置き換わったりすることが少なくありませんでした。文字をきちんと入れたい場面では、GeminiのNano Bananaを使っていた人もいたかもしれません。

Images 2.0では、これまで比較的一貫して描けていた英語などのラテン文字系言語に加えて、日本語や韓国語、中国語を含む多言語でも表現力が向上したとしています。

まるで本物のような写真

OpenAIが公開した作例では、複数のアプリやウィンドウが重なる複雑なデスクトップ画面、北米のオオカミを特集する雑誌風のページ、日本語で構成された少年冒険漫画のカラーページ、さらには教育向けの図解やタイ語の看板が並ぶ都市風景まで、高いクオリティの画像が並びます。

ChatGPT Images 2.0は、すべてのChatGPTユーザーに提供されます。ただし、Thinking対応は現在、Plus、Pro、Businessユーザー向けに提供されており、EnterpriseとEduにも近日中に提供される予定です。

また、APIとCodexでも利用できます。

APIは「gpt-image-2」として提供されます。単発で生成・編集できるImage APIに加えて、対話をしながら修正を繰り返して仕上げるResponses APIが提供されていて、用途に応じてアプリやサービスに組み込むことができます。

いずれのAPIでも品質、サイズ、形式、圧縮率を調整して出力をカスタマイズ可能です。

コーディングエージェントのCodexにも対応します。コードを書く流れの中で、Images 2.0に複数案のUI、コンセプト、プロトタイプを生成して比較。最も優れたアイデアをCodexから離れずに実装できます。

Googleで見つけやすく