A OpenAI liberou na terça-feira o ChatGPT Images 2.0, atualização do modelo de geração de imagens integrado ao chatbot. O sistema, chamado gpt-image-2, traz melhorias em renderização de texto, suporte a múltiplos idiomas e capacidade de criar composições mais complexas. Usuários de todos os planos do ChatGPT já acessam a versão padrão.
O lançamento ocorreu em 21 de abril de 2026. A empresa destacou a inclusão de um modo de “pensamento” que permite ao modelo pesquisar na web, verificar detalhes e gerar até oito imagens a partir de um único prompt. Isso facilita a produção de storyboards, infográficos e materiais com layout estruturado. A resolução chega a 2K em alguns casos.
OpenAI destaca raciocínio e fidelidade em novos recursos
O modelo agora segue instruções com maior precisão e preserva elementos solicitados, como ícones, interfaces e texto pequeno. OpenAI citou exemplos de cartazes científicos, cards de receitas e slides de apresentação como áreas de ganho. O suporte a textos em japonês, coreano, hindi e bengali também melhorou.
Desenvolvedores ganham acesso via API, com preços baseados em qualidade e resolução. Usuários pagos contam com mais capacidade no modo avançado. A atualização ocorre meses após melhorias anteriores no sistema de imagens.
- Geração de múltiplas imagens inter-relacionadas
- Modo de pensamento com pesquisa na web
- Melhor renderização de texto em vários idiomas
- Suporte a proporções variadas, de 3:1 a 1:3
- Resolução de até 2K em saídas selecionadas
Crítico aponta falhas em compreensão funcional
Gary Marcus, pesquisador conhecido por questionar capacidades atuais de IA, testou o novo sistema com diagramas de bicicletas. Em um rótulo automático, o modelo confundiu freio traseiro com tubo de selim e engrenagem com freio. Uma etiqueta apontou para espaço vazio.
Em teste mais difícil, Marcus pediu uma bicicleta tandem mais alta que a média, com bagageiro e alforjes. A imagem gerada apresentou problemas como câmbio traseiro inserido na roda, manete de freio mal posicionada e guidão traseiro em formato de selim. Marcus observou que o sistema combina padrões visuais sem entender a função real das peças.
Especialistas comparam com limitações humanas
Marcus reconheceu que o humano médio também teria dificuldade para desenhar o tandem com precisão. No entanto, mecânicos, ciclistas experientes ou projetistas identificariam os erros rapidamente. O exemplo serve para discutir até que ponto o modelo compreende o mundo físico.
O debate ocorre enquanto o setor celebra saltos em geração de imagens profissionais. Testes independentes confirmaram ganhos em texto legível e layouts densos, mas casos específicos ainda expõem lacunas em raciocínio causal.
Ficha técnica do ChatGPT Images 2.0
- Modelo base: gpt-image-2
- Disponibilidade: todos os usuários do ChatGPT
- Modo avançado: assinantes pagos
- Recursos principais: raciocínio, múltiplas saídas, texto multilíngue
- Resolução: até 2K
- API: liberada com precificação variável
A OpenAI não comentou publicamente os testes de Marcus até o momento. O sistema continua em evolução, com atualizações regulares baseadas em feedback de usuários.

