Dernières Nouvelles (FR)

ChatGPT Images 2.0 arrive avec un raisonnement visuel et une génération de texte améliorée

ChatGPT
Photo: ChatGPT - Iryna Imago / Shutterstock.com

Mardi, OpenAI a publié ChatGPT Images 2.0, une mise à jour du modèle de génération d’images intégré au chatbot. Le système, appelé gpt-image-2, apporte des améliorations dans le rendu du texte, la prise en charge de plusieurs langues et la possibilité de créer des compositions plus complexes. Usuários de tous les forfaits ChatGPT accèdent désormais à la version standard.

Le lancement a eu lieu le 21 avril 2026. La société a souligné l’inclusion d’un mode « réflexion » qui permet au modèle de rechercher sur le Web, de vérifier les détails et de générer jusqu’à huit images à partir d’une seule invite. Isso facilite la production de storyboards, d’infographies et de supports avec une mise en page structurée. La résolution atteint 2K dans certains cas.

OpenAI met en avant le raisonnement et la fidélité dans les nouvelles fonctionnalités

Le modèle suit désormais les instructions avec plus de précision et préserve les éléments demandés tels que les icônes, les interfaces et les petits textes. OpenAI a cité des exemples d’affiches scientifiques, de fiches de recettes et de diapositives de présentation comme domaines de gain. La prise en charge des textes japonais, coréens, hindi et bengali s’est également améliorée.

Desenvolvedores accède via API, avec des prix basés sur la qualité et la résolution. Les Usuários payants ont plus de capacité en mode avancé. La mise à jour intervient des mois après les améliorations précédentes du système d’imagerie.

  • Geração de plusieurs images interdépendantes
  • Modo penser avec la recherche sur le Web
  • Rendu de texte Melhor en plusieurs langues
  • Suporte dans des proportions variables, de 3:1 à 1:3
  • Resolução jusqu’à 2K sur les sorties sélectionnées

Crítico souligne des failles dans la compréhension fonctionnelle

Gary Marcus, un chercheur connu pour remettre en question les capacités actuelles de l’IA, a testé le nouveau système avec des diagrammes de vélos. Dans une étiquette automatique, le modèle confondait frein arrière avec tube de selle et équipement avec frein. Une étiquette indiquait un espace vide.

Dans un test plus difficile, Marcus a demandé un vélo tandem plus grand que la moyenne, avec un porte-bagages et des sacoches. L’image générée présentait des problèmes tels qu’un dérailleur arrière inséré dans la roue, un levier de frein mal positionné et un guidon arrière en forme de selle. Marcus a observé que le système correspondait à des modèles visuels sans comprendre la fonction réelle des pièces.

Especialistas se compare aux limitations humaines

Marcus a reconnu que l’humain moyen aurait également des difficultés à dessiner le tandem avec précision. Cependant, les mécaniciens, les cyclistes expérimentés ou les concepteurs identifieraient rapidement les erreurs. L’exemple sert à discuter de la mesure dans laquelle le modèle comprend le monde physique.

Le débat a lieu alors que le secteur célèbre des avancées en matière d’imagerie professionnelle. L’indépendant Testes a confirmé les gains en termes de texte lisible et de mises en page denses, mais des cas spécifiques révèlent encore des lacunes dans le raisonnement causal.

Ficha Technique ChatGPT Images 2.0

  • Base Modelo : gpt-image-2
  • Disponibilidade : tous les utilisateurs de ChatGPT
  • Modo Advanced : abonnés payants
  • Recursos principal : raisonnement, sorties multiples, texte multilingue
  • Resolução : jusqu’à 2K
  • API : publiée avec une tarification variable

OpenAI n’a pas commenté publiquement les tests Marcus pour le moment. Le système continue d’évoluer, avec des mises à jour régulières basées sur les retours des utilisateurs.

↓ Continue lendo ↓