最新ニュース (JA)

ChatGPT 画像 2.0 は、視覚的な推論と改善されたテキスト生成を備えて登場します

ChatGPT
写真: ChatGPT - Iryna Imago / Shutterstock.com

火曜日、OpenAI は、チャットボットに統合された画像生成モデルのアップデートである ChatGPT Images 2.0 をリリースしました。 gpt-image-2 と呼ばれるこのシステムは、テキスト レンダリングの改善、複数言語のサポート、より複雑な構成の作成機能をもたらします。すべての ChatGPT プランのユーザーは標準バージョンにアクセスできるようになりました。

発売は2026年4月21日に行われた。同社は、モデルがWebを検索し、詳細を確認し、単一のプロンプトから最大8つの画像を生成できる「思考」モードの搭載を強調した。これにより、構造化されたレイアウトを使用したスト​​ーリーボード、インフォグラフィック、マテリアルの作成が容易になります。解像度は場合によっては2Kに達します。

OpenAI は新機能の推論と忠実性を強調します

モデルはより正確に指示に従い、アイコン、インターフェイス、小さなテキストなどの要求された要素を保持するようになりました。 OpenAI は、科学ポスター、レシピ カード、プレゼンテーション スライドの例を利益の分野として挙げました。日本語、韓国語、ヒンディー語、ベンガル語テキストのサポートも改善されました。

開発者は API 経由でアクセスでき、価格は品質と解像度に基づいています。有料ユーザーは詳細モードでより多くの容量を利用できます。このアップデートは、画像システムに対する以前の改良から数か月後に行われます。

  • 複数の相関画像の生成
  • Web 検索による思考モード
  • 複数の言語でのテキストレンダリングの向上
  • 3:1 から 1:3 までのさまざまなアスペクト比をサポート
  • 選択した出力で最大 2K の解像度

批評家が機能理解の欠陥を指摘

現在の AI 機能に疑問を投げかけることで知られる研究者、ゲイリー・マーカス氏は、自転車図を使用して新しいシステムをテストしました。自動ラベルでは、モデルはリアブレーキとシートチューブ、ギアとブレーキを混同していました。ラベルは空のスペースを指しました。

より難しいテストで、マーカスは、荷物ラックとサドルバッグを備えた、平均より背の高いタンデムバイクを要求しました。生成された画像には、ホイールに挿入されたリアディレーラー、不適切な位置のブレーキレバー、サドル型のリアハンドルバーなどの問題が示されていました。マーカス氏は、システムは部品の実際の機能を理解せずに視覚的なパターンを組み合わせていると指摘しました。

専門家はそれを人間の限界と比較します

マーカスは、平均的な人間でもタンデムを正確に描くのが難しいことを認識していました。ただし、整備士、経験豊富なサイクリスト、デザイナーはエラーをすぐに特定します。この例は、モデルが物理世界をどの程度理解しているかを説明するために役立ちます。

この分野がプロの映像分野における飛躍を祝う中で、この議論が行われている。独立したテストでは、読みやすいテキストと緻密なレイアウトの向上が確認されましたが、特定のケースでは依然として因果推論のギャップが明らかになります。

ChatGPT 画像 2.0 テクニカル シート

  • ベースモデル: gpt-image-2
  • 利用可能: すべての ChatGPT ユーザー
  • 詳細モード: 有料購読者
  • 主な機能: 推論、複数の出力、多言語テキスト
  • 解像度: 最大 2K
  • API: 変動価格でリリース

OpenAIはこれまでマーカス氏のテストについて公にコメントしていない。このシステムは、ユーザーのフィードバックに基づいて定期的に更新され、進化し続けています。

↓ Continue lendo ↓