最新新聞 (TW)

ChatGPT Images 2.0 帶來視覺推理和改進的文本生成

ChatGPT
Foto: ChatGPT - Iryna Imago / Shutterstock.com

週二,OpenAI 發布了 ChatGPT Images 2.0,這是對整合到聊天機器人中的圖像生成模型的更新。該系統名為 gpt-image-2,帶來了文字渲染方面的改進、對多種語言的支援以及創建更複雜組合的能力。所有 ChatGPT 計劃的用戶現在都可以存取標準版本。

此次發佈於 2026 年 4 月 21 日進行。該公司強調包含「思考」模式,該模式允許模型搜尋網路、檢查詳細資訊並根據單一提示生成最多八張圖像。這有助於製作具有結構化佈局的故事板、資訊圖表和材料。某些情況下解析度可達2K。

OpenAI 在新功能中強調推理和保真度

該模型現在可以更準確地遵循指令,並保留所需的元素,例如圖標、介面和小文字。 OpenAI 列舉了科學海報、食譜卡和簡報投影片的例子作為收益領域。對日語、韓語、印地語和孟加拉語文本的支持也得到了改善。

開發人員透過 API 獲得存取權限,價格根據品質和解析度而定。付費用戶在高級模式下擁有更多容量。此次更新是在先前對成像系統進行改進幾個月後進行的。

  • 產生多個相互關聯的影像
  • 網路搜尋的思維模式
  • 更好的多種語言文本呈現
  • 支援不同的寬高比,從 3:1 到 1:3
  • 選定輸出的分辨率高達 2K

批評者指出功能理解上的缺陷

加里·馬庫斯(Gary Marcus)是一位以質疑當前人工智慧能力而聞名的研究人員,他用自行車圖測試了新系統。在自動標籤中,該車型將後煞車與座管、齒輪與煞車混淆了。一個標籤指向空白區域。

在一項更困難的測試中,馬庫斯要求一輛比普通雙人自行車更高的雙人自行車,並配有行李架和鞍包。生成的圖像提出了一些問題,例如插入車輪的後變速器、煞車桿位置不佳以及馬鞍形後車把。馬庫斯指出,該系統結合了視覺模式,但不了解零件的實際功能。

專家將其與人類的限制進行比較

馬庫斯體認到,一般人也很難準確地繪製串聯圖。然而,機械師、經驗豐富的自行車手或設計師會很快發現錯誤。此範例用於討論模型對物理世界的理解程度。

這場爭論發生在該行業慶祝專業成像技術飛躍之際。獨立測試證實了可讀文本和密集佈局的進步,但特定案例仍然暴露出因果推理方面的差距。

ChatGPT 影像 2.0 技術表

  • 基礎模型:gpt-image-2
  • 可用性:所有 ChatGPT 用戶
  • 高級模式:付費訂閱者
  • 主要特點:推理、多種輸出、多語言文本
  • 解析度:高達2K
  • API:以可變定價發布

迄今為止,OpenAI 尚未對 Marcus 的測試公開發表評論。該系統不斷發展,根據用戶回饋定期更新。

↓ Continue lendo ↓