最新新闻 (CN)

ChatGPT Images 2.0 带来视觉推理和改进的文本生成

ChatGPT
照片: ChatGPT - Iryna Imago / Shutterstock.com

周二,OpenAI 发布了 ChatGPT Images 2.0,这是对集成到聊天机器人中的图像生成模型的更新。该系统名为 gpt-image-2,带来了文本渲染方面的改进、对多种语言的支持以及创建更复杂组合的能力。所有 ChatGPT 计划的用户现在都可以访问标准版本。

此次发布于 2026 年 4 月 21 日进行。该公司强调包含“思考”模式,该模式允许模型搜索网络、检查详细信息并根据单个提示生成最多八张图像。这有助于制作具有结构化布局的故事板、信息图表和材料。某些情况下分辨率可达2K。

OpenAI 在新功能中强调推理和保真度

该模型现在可以更准确地遵循指令,并保留所需的元素,例如图标、界面和小文本。 OpenAI 列举了科学海报、食谱卡和演示幻灯片的例子作为收益领域。对日语、韩语、印地语和孟加拉语文本的支持也得到了改善。

开发人员通过 API 获得访问权限,价格根据质量和分辨率而定。付费用户在高级模式下拥有更多容量。此次更新是在之前对成像系统进行改进几个月后进行的。

  • 生成多个相互关联的图像
  • 网络搜索的思维模式
  • 更好的多种语言文本呈现
  • 支持不同的宽高比,从 3:1 到 1:3
  • 选定输出的分辨率高达 2K

批评者指出功能理解上的缺陷

加里·马库斯(Gary Marcus)是一位以质疑当前人工智能能力而闻名的研究人员,他用自行车图测试了新系统。在自动标签中,该车型将后刹车与座管、齿轮与刹车混淆了。一个标签指向空白区域。

在一项更困难的测试中,马库斯要求一辆比普通双人自行车更高的双人自行车,并配有行李架和鞍包。生成的图像提出了一些问题,例如插入车轮的后拨链器、制动杆位置不佳以及马鞍形后车把。马库斯指出,该系统结合了视觉模式,但不了解部件的实际功能。

专家将其与人类的局限性进行比较

马库斯认识到,普通人也很难准确地绘制串联图。然而,机械师、经验丰富的自行车手或设计师会很快发现错误。该示例用于讨论模型对物理世界的理解程度。

这场争论发生在该行业庆祝专业成像技术飞跃之际。独立测试证实了可读文本和密集布局方面的进步,但特定案例仍然暴露出因果推理方面的差距。

ChatGPT 图像 2.0 技术表

  • 基础模型:gpt-image-2
  • 可用性:所有 ChatGPT 用户
  • 高级模式:付费订阅者
  • 主要特点:推理、多种输出、多语言文本
  • 分辨率:高达2K
  • API:以可变定价发布

迄今为止,OpenAI 尚未对 Marcus 的测试公开发表评论。该系统不断发展,根据用户反馈定期更新。

↓ Continue lendo ↓