Во вторник OpenAI выпустила ChatGPT Images 2.0, обновление модели генерации изображений, интегрированной в чат-бот. Система под названием gpt-image-2 обеспечивает улучшения рендеринга текста, поддержку нескольких языков и возможность создавать более сложные композиции. Пользователи всех планов ChatGPT теперь получают доступ к стандартной версии.
Запуск состоялся 21 апреля 2026 года. Компания подчеркнула включение режима «думания», который позволяет модели искать в Интернете, проверять детали и генерировать до восьми изображений из одной подсказки. Это облегчает создание раскадровки, инфографики и материалов со структурированной версткой. Разрешение в некоторых случаях достигает 2К.
OpenAI подчеркивает продуманность и точность новых функций
Модель теперь более точно следует инструкциям и сохраняет запрошенные элементы, такие как значки, интерфейсы и мелкий текст. OpenAI привела примеры научных плакатов, карточек с рецептами и слайдов презентаций в качестве областей, которые можно получить. Также улучшилась поддержка текстов на японском, корейском, хинди и бенгали.
Разработчики получают доступ через API, цены зависят от качества и разрешения. Платные пользователи имеют больше возможностей в расширенном режиме. Обновление появилось через несколько месяцев после предыдущих улучшений системы обработки изображений.
- Генерация нескольких взаимосвязанных изображений
- Режим мышления с веб-поиском
- Улучшенный рендеринг текста на нескольких языках.
- Поддержка различных соотношений сторон: от 3:1 до 1:3.
- Разрешение до 2K на выбранных выходах
https://twitter.com/OpenAI/status/2046670978890276918?ref_src=twsrc%5Etfw
Критик указывает на недостатки функционального понимания
Гэри Маркус, исследователь, известный тем, что подвергает сомнению текущие возможности искусственного интеллекта, протестировал новую систему с помощью велосипедных диаграмм. На автоматической этикетке модель перепутала задний тормоз с подседельной трубой, а шестерню с тормозом. Этикетка указывала на пустое место.
В более сложном тесте Маркус попросил велосипед-тандем выше среднего, с багажником и седельными сумками. На сгенерированном изображении были обнаружены такие проблемы, как задний переключатель, вставленный в колесо, плохо расположенный тормозной рычаг и задний руль седловидной формы. Маркус отметил, что система объединяет визуальные шаблоны, не понимая фактической функции частей.
Эксперты сравнивают это с человеческими ограничениями
Маркус признал, что обычному человеку также будет сложно точно нарисовать тандем. Однако механики, опытные велосипедисты или дизайнеры быстро выявят ошибки. Этот пример служит для обсуждения того, в какой степени модель понимает физический мир.
Дебаты происходят в то время, когда отрасль отмечает скачок в профессиональной визуализации. Независимые тесты подтвердили улучшение читаемости текста и плотной компоновки, но в конкретных случаях все же обнаруживаются пробелы в причинно-следственных рассуждениях.
Технический паспорт ChatGPT Images 2.0
- Базовая модель: gpt-image-2
- Доступность: всем пользователям ChatGPT.
- Расширенный режим: платные подписчики
- Ключевые особенности: рассуждение, несколько выходов, многоязычный текст.
- Разрешение: до 2К
- API: выпущен с переменной ценой.
OpenAI до сих пор публично не комментировала тесты Маркуса. Система продолжает развиваться и регулярно обновляется на основе отзывов пользователей.

