ChatGPT Images 2.0 llega con razonamiento visual y generación de texto mejorada

ChatGPT

ChatGPT - Iryna Imago / Shutterstock.com

El martes, OpenAI lanzó ChatGPT Images 2.0, una actualización del modelo de generación de imágenes integrado en el chatbot. El sistema, llamado gpt-image-2, trae mejoras en la representación de texto, soporte para múltiples idiomas y la capacidad de crear composiciones más complejas. Usuários de todos los planes ChatGPT ahora accede a la versión estándar.

El lanzamiento tuvo lugar el 21 de abril de 2026. La compañía destacó la inclusión de un modo “pensar” que permite al modelo buscar en la web, verificar detalles y generar hasta ocho imágenes desde un solo mensaje. Isso facilita la producción de guiones gráficos, infografías y materiales con un diseño estructurado. La resolución alcanza los 2K en algunos casos.

OpenAI destaca el razonamiento y la fidelidad en las nuevas funciones

El modelo ahora sigue las instrucciones con mayor precisión y conserva los elementos solicitados, como iconos, interfaces y texto pequeño. OpenAI citó ejemplos de carteles científicos, tarjetas de recetas y diapositivas de presentación como áreas de beneficio. También se ha mejorado la compatibilidad con textos en japonés, coreano, hindi y bengalí.

Desenvolvedores accede vía API, con precios basados ​​en calidad y resolución. Los Usuários de pago tienen más capacidad en modo avanzado. La actualización llega meses después de mejoras anteriores al sistema de imágenes.

  • Geração de múltiples imágenes interrelacionadas
  • Modo pensando con la búsqueda web
  • Representación de texto Melhor en varios idiomas
  • Suporte en proporciones variables, de 3:1 a 1:3
  • Resolução hasta 2K en salidas seleccionadas

https://twitter.com/OpenAI/status/2046670978890276918?ref_src=twsrc%5Etfw

Crítico señala fallas en la comprensión funcional

Gary Marcus, un investigador conocido por cuestionar las capacidades actuales de la IA, probó el nuevo sistema con diagramas de bicicletas. En una etiqueta automática, el modelo confundía freno trasero con tubo de sillín y marcha con freno. Una etiqueta señalaba un espacio vacío.

En una prueba más difícil, Marcus pidió una bicicleta tándem más alta que la media, con portaequipajes y alforjas. La imagen generada presentaba problemas como un desviador trasero insertado en la rueda, una palanca de freno mal colocada y un manillar trasero en forma de sillín. Marcus observó que el sistema coincide con patrones visuales sin comprender la función real de las piezas.

Especialistas comparar con las limitaciones humanas

Marcus reconoció que el humano promedio también tendría dificultades para dibujar el tándem con precisión. Sin embargo, los mecánicos, los ciclistas experimentados o los diseñadores identificarían los errores rápidamente. El ejemplo sirve para discutir hasta qué punto el modelo comprende el mundo físico.

El debate tiene lugar mientras el sector celebra los avances en la imagen profesional. El estudio independiente Testes confirmó avances en texto legible y diseños densos, pero casos específicos aún exponen lagunas en el razonamiento causal.

Ficha Técnica ChatGPT Images 2.0

  • Base Modelo: gpt-imagen-2
  • Disponibilidade: todos los usuarios de ChatGPT
  • Modo Avanzado: Suscriptores pagos
  • Recursos principal: razonamiento, salidas múltiples, texto multilingüe
  • Resolução: hasta 2K
  • API: lanzada con precio variable

OpenAI no ha comentado públicamente sobre las pruebas de Marcus en este momento. El sistema continúa evolucionando, con actualizaciones periódicas basadas en los comentarios de los usuarios.