ChatGPT Images 2.0 带来视觉推理和改进的文本生成
周二,OpenAI 发布了 ChatGPT Images 2.0,这是对集成到聊天机器人中的图像生成模型的更新。该系统名为 gpt-image-2,带来了文本渲染方面的改进、对多种语言的支持以及创建更复杂组合的能力。所有 ChatGPT 计划的用户现在都可以访问标准版本。
此次发布于 2026 年 4 月 21 日进行。该公司强调包含“思考”模式,该模式允许模型搜索网络、检查详细信息并根据单个提示生成最多八张图像。这有助于制作具有结构化布局的故事板、信息图表和材料。某些情况下分辨率可达2K。
OpenAI 在新功能中强调推理和保真度
该模型现在可以更准确地遵循指令,并保留所需的元素,例如图标、界面和小文本。 OpenAI 列举了科学海报、食谱卡和演示幻灯片的例子作为收益领域。对日语、韩语、印地语和孟加拉语文本的支持也得到了改善。
开发人员通过 API 获得访问权限,价格根据质量和分辨率而定。付费用户在高级模式下拥有更多容量。此次更新是在之前对成像系统进行改进几个月后进行的。
- 生成多个相互关联的图像
- 网络搜索的思维模式
- 更好的多种语言文本呈现
- 支持不同的宽高比,从 3:1 到 1:3
- 选定输出的分辨率高达 2K
ChatGPT Images 2.0 is a step change in detailed instruction following, placing and relating objects accurately, and rendering dense text, with the ability to generate across aspect ratios.
— OpenAI (@OpenAI) April 21, 2026
It’s also accurate across languages and uses its expanded visual and world knowledge to…
批评者指出功能理解上的缺陷
加里·马库斯(Gary Marcus)是一位以质疑当前人工智能能力而闻名的研究人员,他用自行车图测试了新系统。在自动标签中,该车型将后刹车与座管、齿轮与刹车混淆了。一个标签指向空白区域。
在一项更困难的测试中,马库斯要求一辆比普通双人自行车更高的双人自行车,并配有行李架和鞍包。生成的图像提出了一些问题,例如插入车轮的后拨链器、制动杆位置不佳以及马鞍形后车把。马库斯指出,该系统结合了视觉模式,但不了解部件的实际功能。
专家将其与人类的局限性进行比较
马库斯认识到,普通人也很难准确地绘制串联图。然而,机械师、经验丰富的自行车手或设计师会很快发现错误。该示例用于讨论模型对物理世界的理解程度。
这场争论发生在该行业庆祝专业成像技术飞跃之际。独立测试证实了可读文本和密集布局方面的进步,但特定案例仍然暴露出因果推理方面的差距。
ChatGPT 图像 2.0 技术表
- 基础模型:gpt-image-2
- 可用性:所有 ChatGPT 用户
- 高级模式:付费订阅者
- 主要特点:推理、多种输出、多语言文本
- 分辨率:高达2K
- API:以可变定价发布
迄今为止,OpenAI 尚未对 Marcus 的测试公开发表评论。该系统不断发展,根据用户反馈定期更新。
另见 em 最新新闻 (CN)
《极限竞速:地平线 6》在 PC 上的 156GB 大小暴露了日本的巨大规模和前所未见的图形
02/05/2026
PlayStation Plus 目录将于 5 月收到 EA Sports FC 26 和新动作游戏
02/05/2026
Supercell在《皇室战争》中分发5万金币和独家周年纪念物品
02/05/2026
特朗普政府拒绝救助后,精神航空公司准备彻底关闭其运营
02/05/2026
Supercell 在 2026 年 5 月期间向 Brawl Stars 玩家分发免费奖励
02/05/2026
Xbox 将于 2026 年 5 月发布,重点关注日本的《极限竞速:地平线 6》以及目录中的新游戏
02/05/2026
开发商 CD Projekt RED 制作了赛博朋克系列的官方新游戏,重点关注技术和多人游戏
02/05/2026
Epic Games 在日本为 iPhone 用户推出数字平台,其中包括《堡垒之夜》
02/05/2026
IPhone 18面临内存价格上涨和蒂姆·库克警告的压力
02/05/2026
纳尔吉斯·穆罕默迪的家人警告他有死亡风险并要求转院
02/05/2026
暗黑破坏神 4 代码中的文件探索暗示经典传奇牛关卡即将回归
02/05/2026


