ChatGPT Images 2.0 kommer med visuella resonemang och förbättrad textgenerering

ChatGPT

ChatGPT - Iryna Imago / Shutterstock.com

På tisdagen släppte OpenAI ChatGPT Images 2.0, en uppdatering av bildgenereringsmodellen integrerad i chatboten. Systemet, som kallas gpt-image-2, ger förbättringar i textåtergivning, stöd för flera språk och möjligheten att skapa mer komplexa kompositioner. Usuários av alla ChatGPT-planer har nu tillgång till standardversionen.

Lanseringen ägde rum den 21 april 2026. Företaget lyfte fram införandet av ett “tänk”-läge som gör att modellen kan söka på webben, kontrollera detaljer och generera upp till åtta bilder från en enda uppmaning. Isso underlättar produktionen av storyboards, infografik och material med en strukturerad layout. Upplösningen når 2K i vissa fall.

OpenAI lyfter fram resonemang och trohet i nya funktioner

Modellen följer nu instruktionerna mer exakt och bevarar efterfrågade element som ikoner, gränssnitt och liten text. OpenAI nämnde exempel på vetenskapliga affischer, receptkort och presentationsbilder som vinstområden. Stödet för japanska, koreanska, hindi och bengaliska texter har också förbättrats.

Desenvolvedores får tillgång via API, med priser baserade på kvalitet och upplösning. Betalda Usuários har mer kapacitet i avancerat läge. Uppdateringen kommer månader efter tidigare förbättringar av bildsystemet.

  • Geração av flera sammanhängande bilder
  • Modo-tänkande med webbsökning
  • Melhor textåtergivning på flera språk
  • Suporte i varierande proportioner, från 3:1 till 1:3
  • Resolução upp till 2K på valda utgångar

https://twitter.com/OpenAI/status/2046670978890276918?ref_src=twsrc%5Etfw

Crítico påpekar brister i funktionell förståelse

Gary Marcus, en forskare känd för att ifrågasätta nuvarande AI-kapacitet, testade det nya systemet med cykeldiagram. I en automatisk etikett förväxlade modellen bakbroms med sadelrör och växel med broms. En etikett pekade på tomt utrymme.

I ett svårare test bad Marcus om en högre tandemcykel än genomsnittet, med bagagehylla och sadelväskor. Bilden som genererades presenterade problem som en bakväxel som satts in i hjulet, en dåligt placerad bromsspak och ett sadelformat bakre styre. Marcus observerade att systemet matchar visuella mönster utan att förstå delarnas faktiska funktion.

Especialistas jämför med mänskliga begränsningar

Marcus insåg att den genomsnittliga människan också skulle ha svårt att rita tandemet exakt. Men mekaniker, erfarna cyklister eller designers skulle snabbt identifiera fel. Exemplet tjänar till att diskutera i vilken utsträckning modellen förstår den fysiska världen.

Debatten äger rum när sektorn hyllar språng inom professionell bildbehandling. Oberoende Testes bekräftade vinster i läsbar text och täta layouter, men specifika fall avslöjar fortfarande luckor i orsaksresonemang.

Ficha ChatGPT-teknik Images 2.0

  • Modelo bas: gpt-image-2
  • Disponibilidade: alla ChatGPT-användare
  • Modo Advanced: Betalade prenumeranter
  • Recursos main: resonemang, flera utgångar, flerspråkig text
  • Resolução: upp till 2K
  • API: släppt med varierande prissättning

OpenAI har för närvarande inte kommenterat Marcus-testningen offentligt. Systemet fortsätter att utvecklas, med regelbundna uppdateringar baserade på feedback från användare.