ChatGPT Images 2.0 поставляется с визуальным анализом и улучшенной генерацией текста.

Beatriz

em 28 апреля 2026

Во вторник OpenAI выпустила ChatGPT Images 2.0, обновление модели генерации изображений, интегрированной в чат-бот. Система под названием gpt-image-2 обеспечивает улучшения рендеринга текста, поддержку нескольких языков и возможность создавать более сложные композиции. Пользователи всех планов ChatGPT теперь получают доступ к стандартной версии.

Запуск состоялся 21 апреля 2026 года. Компания подчеркнула включение режима «думания», который позволяет модели искать в Интернете, проверять детали и генерировать до восьми изображений из одной подсказки. Это облегчает создание раскадровки, инфографики и материалов со структурированной версткой. Разрешение в некоторых случаях достигает 2К.

OpenAI подчеркивает продуманность и точность новых функций

Модель теперь более точно следует инструкциям и сохраняет запрошенные элементы, такие как значки, интерфейсы и мелкий текст. OpenAI привела примеры научных плакатов, карточек с рецептами и слайдов презентаций в качестве областей, которые можно получить. Также улучшилась поддержка текстов на японском, корейском, хинди и бенгали.

Разработчики получают доступ через API, цены зависят от качества и разрешения. Платные пользователи имеют больше возможностей в расширенном режиме. Обновление появилось через несколько месяцев после предыдущих улучшений системы обработки изображений.

Генерация нескольких взаимосвязанных изображений
Режим мышления с веб-поиском
Улучшенный рендеринг текста на нескольких языках.
Поддержка различных соотношений сторон: от 3:1 до 1:3.
Разрешение до 2K на выбранных выходах

https://twitter.com/OpenAI/status/2046670978890276918?ref_src=twsrc%5Etfw

Критик указывает на недостатки функционального понимания

Гэри Маркус, исследователь, известный тем, что подвергает сомнению текущие возможности искусственного интеллекта, протестировал новую систему с помощью велосипедных диаграмм. На автоматической этикетке модель перепутала задний тормоз с подседельной трубой, а шестерню с тормозом. Этикетка указывала на пустое место.

В более сложном тесте Маркус попросил велосипед-тандем выше среднего, с багажником и седельными сумками. На сгенерированном изображении были обнаружены такие проблемы, как задний переключатель, вставленный в колесо, плохо расположенный тормозной рычаг и задний руль седловидной формы. Маркус отметил, что система объединяет визуальные шаблоны, не понимая фактической функции частей.

Эксперты сравнивают это с человеческими ограничениями

Маркус признал, что обычному человеку также будет сложно точно нарисовать тандем. Однако механики, опытные велосипедисты или дизайнеры быстро выявят ошибки. Этот пример служит для обсуждения того, в какой степени модель понимает физический мир.

Дебаты происходят в то время, когда отрасль отмечает скачок в профессиональной визуализации. Независимые тесты подтвердили улучшение читаемости текста и плотной компоновки, но в конкретных случаях все же обнаруживаются пробелы в причинно-следственных рассуждениях.

Технический паспорт ChatGPT Images 2.0

Базовая модель: gpt-image-2
Доступность: всем пользователям ChatGPT.
Расширенный режим: платные подписчики
Ключевые особенности: рассуждение, несколько выходов, многоязычный текст.
Разрешение: до 2К
API: выпущен с переменной ценой.

OpenAI до сих пор публично не комментировала тесты Маркуса. Система продолжает развиваться и регулярно обновляется на основе отзывов пользователей.

ChatGPT Images 2.0, görsel akıl yürütme ve gelişmiş metin oluşturma özellikleriyle geliyor »

« ChatGPT Images 2.0 přichází s vizuálním uvažováním a vylepšeným generováním textu

Tags: визуальное мышление ИИГенерация изображений OpenAIИзображения ChatGPT 2.0шаблон gpt-image-2