ChatGPT Images 2.0 chega com raciocínio visual e geração de texto aprimorada

ChatGPT

ChatGPT - Iryna Imago / Shutterstock.com

A OpenAI liberou na terça-feira o ChatGPT Images 2.0, atualização do modelo de geração de imagens integrado ao chatbot. O sistema, chamado gpt-image-2, traz melhorias em renderização de texto, suporte a múltiplos idiomas e capacidade de criar composições mais complexas. Usuários de todos os planos do ChatGPT já acessam a versão padrão.

O lançamento ocorreu em 21 de abril de 2026. A empresa destacou a inclusão de um modo de “pensamento” que permite ao modelo pesquisar na web, verificar detalhes e gerar até oito imagens a partir de um único prompt. Isso facilita a produção de storyboards, infográficos e materiais com layout estruturado. A resolução chega a 2K em alguns casos.

OpenAI destaca raciocínio e fidelidade em novos recursos

O modelo agora segue instruções com maior precisão e preserva elementos solicitados, como ícones, interfaces e texto pequeno. OpenAI citou exemplos de cartazes científicos, cards de receitas e slides de apresentação como áreas de ganho. O suporte a textos em japonês, coreano, hindi e bengali também melhorou.

Desenvolvedores ganham acesso via API, com preços baseados em qualidade e resolução. Usuários pagos contam com mais capacidade no modo avançado. A atualização ocorre meses após melhorias anteriores no sistema de imagens.

  • Geração de múltiplas imagens inter-relacionadas
  • Modo de pensamento com pesquisa na web
  • Melhor renderização de texto em vários idiomas
  • Suporte a proporções variadas, de 3:1 a 1:3
  • Resolução de até 2K em saídas selecionadas

Crítico aponta falhas em compreensão funcional

Gary Marcus, pesquisador conhecido por questionar capacidades atuais de IA, testou o novo sistema com diagramas de bicicletas. Em um rótulo automático, o modelo confundiu freio traseiro com tubo de selim e engrenagem com freio. Uma etiqueta apontou para espaço vazio.

Em teste mais difícil, Marcus pediu uma bicicleta tandem mais alta que a média, com bagageiro e alforjes. A imagem gerada apresentou problemas como câmbio traseiro inserido na roda, manete de freio mal posicionada e guidão traseiro em formato de selim. Marcus observou que o sistema combina padrões visuais sem entender a função real das peças.

Especialistas comparam com limitações humanas

Marcus reconheceu que o humano médio também teria dificuldade para desenhar o tandem com precisão. No entanto, mecânicos, ciclistas experientes ou projetistas identificariam os erros rapidamente. O exemplo serve para discutir até que ponto o modelo compreende o mundo físico.

O debate ocorre enquanto o setor celebra saltos em geração de imagens profissionais. Testes independentes confirmaram ganhos em texto legível e layouts densos, mas casos específicos ainda expõem lacunas em raciocínio causal.

Ficha técnica do ChatGPT Images 2.0

  • Modelo base: gpt-image-2
  • Disponibilidade: todos os usuários do ChatGPT
  • Modo avançado: assinantes pagos
  • Recursos principais: raciocínio, múltiplas saídas, texto multilíngue
  • Resolução: até 2K
  • API: liberada com precificação variável

A OpenAI não comentou publicamente os testes de Marcus até o momento. O sistema continua em evolução, com atualizações regulares baseadas em feedback de usuários.