Ultime Notizie (IT)

ChatGPT Images 2.0 arriva con ragionamento visivo e generazione di testo migliorata

ChatGPT
Foto: ChatGPT - Iryna Imago / Shutterstock.com

Martedì OpenAI ha rilasciato ChatGPT Images 2.0, un aggiornamento al modello di generazione di immagini integrato nel chatbot. Il sistema, chiamato gpt-image-2, apporta miglioramenti nella resa del testo, supporto per più lingue e la possibilità di creare composizioni più complesse. Usuários di tutti i piani ChatGPT ora accede alla versione standard.

Il lancio è avvenuto il 21 aprile 2026. L’azienda ha evidenziato l’inclusione di una modalità “pensa” che consente al modello di effettuare ricerche sul Web, controllare i dettagli e generare fino a otto immagini da un unico prompt. Isso facilita la produzione di storyboard, infografiche e materiali con un layout strutturato. In alcuni casi la risoluzione raggiunge i 2K.

OpenAI evidenzia il ragionamento e la fedeltà nelle nuove funzionalità

Il modello ora segue le istruzioni in modo più accurato e preserva gli elementi richiesti come icone, interfacce e testo di piccole dimensioni. OpenAI ha citato esempi di poster scientifici, schede di ricette e diapositive di presentazione come aree di guadagno. È stato migliorato anche il supporto per i testi giapponese, coreano, hindi e bengalese.

Desenvolvedores ottiene l’accesso tramite API, con prezzi basati su qualità e risoluzione. Gli Usuários a pagamento hanno più capacità in modalità avanzata. L’aggiornamento arriva mesi dopo i precedenti miglioramenti al sistema di imaging.

  • Geração di più immagini correlate
  • Modo pensa con la ricerca sul web
  • Melhor rendering del testo in più lingue
  • Suporte in proporzioni variabili, da 3:1 a 1:3
  • Resolução fino a 2K su uscite selezionate

Crítico evidenzia i difetti nella comprensione funzionale

Gary Marcus, un ricercatore noto per aver messo in discussione le attuali capacità dell’intelligenza artificiale, ha testato il nuovo sistema con diagrammi di biciclette. In un’etichetta automatica, il modello confondeva il freno posteriore con il tubo sella e il cambio con il freno. Un’etichetta indicava uno spazio vuoto.

In un test più difficile, Marcus ha chiesto un tandem più alto della media, con portapacchi e borse laterali. L’immagine generata presentava problemi come un deragliatore posteriore inserito nella ruota, una leva del freno mal posizionata e un manubrio posteriore a forma di sella. Marcus ha osservato che il sistema corrisponde a modelli visivi senza comprendere la funzione effettiva delle parti.

Especialistas confronta con i limiti umani

Marcus ha riconosciuto che anche l’essere umano medio avrebbe difficoltà a disegnare il tandem con precisione. Tuttavia, meccanici, ciclisti esperti o progettisti identificherebbero rapidamente gli errori. L’esempio serve a discutere la misura in cui il modello comprende il mondo fisico.

Il dibattito si svolge mentre il settore celebra i progressi compiuti nell’imaging professionale. L’indipendente Testes ha confermato i miglioramenti nel testo leggibile e nei layout densi, ma casi specifici evidenziano ancora lacune nel ragionamento causale.

Ficha Tecnica ChatGPT Images 2.0

  • Base Modelo: immagine-gpt-2
  • Disponibilidade: tutti gli utenti ChatGPT
  • Modo Avanzato: abbonati a pagamento
  • Recursos principale: ragionamento, uscite multiple, testo multilingue
  • Resolução: fino a 2K
  • API: rilasciata con prezzo variabile

OpenAI al momento non ha commentato pubblicamente i test Marcus. Il sistema continua ad evolversi, con aggiornamenti regolari basati sul feedback degli utenti.

↓ Continue lendo ↓