La compressione testo-immagine AI raggiunge una precisione del 97% con la nuova tecnologia DeepSeek

DeepSeek

DeepSeek - Foto: Photo Nature Travel / Shutterstock.com

La società tecnologica cinese DeepSeek ha annunciato un’innovazione significativa nel campo dell’intelligenza artificiale con il rilascio di DeepSeek-OCR, un modello progettato per superare una delle maggiori barriere dei modelli linguistici di grandi dimensioni (LLM): la limitazione della finestra di contesto. Il nuovo approccio converte il testo in rappresentazioni visive, consentendo una compressione dei dati fino a dieci volte senza sostanziale perdita di informazioni. La tecnica Essa consente ai sistemi di intelligenza artificiale di elaborare enormi volumi di documenti in modo più rapido ed economico, mantenendo un tasso di precisione del 97% nel recupero dei contenuti originali. Lo sviluppo, dettagliato in una pubblicazione tecnica il 20 ottobre 2025, risponde direttamente alla crescente domanda di elaborazione dati su larga scala senza il conseguente aumento dei costi computazionali.

Il problema centrale che DeepSeek-OCR mira a risolvere è la capacità finita degli LLM di “ricordare” o elaborare le informazioni in un’unica interazione. Trasformando il testo in immagini compatte, la tecnologia supera la necessità di elaborare lunghe sequenze di token testuali, che costituiscono l’unità di base delle informazioni per questi modelli. La conversione di Essa al dominio visivo non solo ottimizza l’utilizzo delle risorse, ma apre anche nuove possibilità per analizzare documenti complessi, come rapporti finanziari, articoli scientifici e persino codici sorgente di software, in modo integrato ed efficiente.

La metodologia si distingue per la sua efficienza. Nei test comparativi, il modello ha dimostrato di essere in grado di generare più di 200.000 pagine di dati al giorno utilizzando una singola GPU Nvidia A100, un’impresa che stabilisce un nuovo standard prestazionale per il riconoscimento ottico dei caratteri (OCR) e le attività di elaborazione dei documenti. L’approccio innovativo di DeepSeek può accelerare l’adozione dell’intelligenza artificiale nei settori che si basano su un’analisi intensiva dei documenti, come la finanza, il diritto e il mondo accademico.

Intelligenza Artificial – Foto: Owlie Productions/ Shutterstock.com

L’innovazione dietro la compressione visiva

DeepSeek-OCR funziona sulla base di un processo in due fasi che trasforma radicalmente il modo in cui le informazioni testuali vengono gestite dai sistemi di intelligenza artificiale. Primeiramente, il modello riceve input di testo e li converte internamente in immagini bidimensionali, come se stesse “stampando” il contenuto su uno schermo digitale. Codificatori visivi specializzati analizzano quindi queste immagini e le comprimono in un numero molto più piccolo di token visivi. La strategia Essa è fondamentale per l’efficienza del sistema, poiché riduce drasticamente il carico computazionale richiesto per l’elaborazione. In confronto, modelli concorrenti come GOT-OCR2.0 richiedono circa 256 token per elaborare una singola pagina, mentre DeepSeek-OCR esegue la stessa attività con solo 100 token visivi, rappresentando oltre il 60% di ottimizzazione.

Uno degli aspetti più sofisticati della tecnologia è l’implementazione di un sistema di compressione variabile, che imita il modo in cui funziona la memoria umana. Il modello assegna una risoluzione più elevata e, di conseguenza, più token, ai contesti più recenti e rilevanti, mentre le informazioni più vecchie o con priorità inferiore vengono archiviate in modo meno dettagliato, utilizzando meno token. Essa L’allocazione dinamica delle risorse garantisce che la precisione venga mantenuta dove è maggiormente necessaria, ottimizzando al tempo stesso l’archiviazione a lungo termine. La capacità del modello di gestire circa 100 lingue diverse e di elaborare elementi non testuali come grafici, tabelle complesse e formule chimiche ne amplia ulteriormente l’applicabilità in scenari del mondo reale, rendendolo uno strumento versatile per digitalizzare e analizzare la conoscenza su scala globale.

[[MVG_PROTECTED_BLOCK_0]

Efficienza e performance in numeri

La superiorità di DeepSeek-OCR è stata convalidata in benchmark rigorosi come OmniDocBench, dove ha notevolmente sovraperformato i modelli all’avanguardia. Un esempio notevole è il confronto con MinerU0, che consuma più di 6mila token per analizzare una singola pagina di documento. Al contrario, il modello di DeepSeek realizza lo stesso compito con meno di 800 token, una riduzione di quasi il 90% nel consumo di risorse. Mesmo quando il tasso di compressione viene aumentato a 20 volte, con un conseguente calo di precisione del 60%, la tecnologia si dimostra ancora valida per applicazioni che richiedono l’analisi di contesti estremamente lunghi, dove la visione d’insieme è più importante del minimo dettaglio. Le prestazioni di Essa non solo accelerano la lavorazione, ma generano anche risparmi sui costi operativi che possono raggiungere il 90%, secondo le analisi di produzione. La versatilità del modello è un altro punto di forza, dimostrando la sua capacità di elaborare documenti con layout irregolari, come report finanziari, fatture e persino note scritte a mano, oltre a generare dati sintetici di alta qualità per la formazione di altri LLM, ampliando i set di dati disponibili. La compatibilità con diverse risoluzioni, che vanno da 64 a 400 token per immagine, garantisce flessibilità per le diverse esigenze applicative.

Ripercussioni nella comunità dell’intelligenza artificiale

Il lancio di DeepSeek-OCR ha generato reazioni immediate e positive da parte di figure di spicco della comunità AI. Andrej Karpathy, co-fondatore di OpenAI e una delle voci più rispettate nel settore, ha elogiato pubblicamente la ricerca, sollevando una domanda fondamentale: se i pixel potrebbero diventare un input più efficiente rispetto ai token di testo per gli LLM.

Nella sua analisi, Karpathy ha suggerito la possibilità di rendere tutto il testo come immagine per ottimizzare l’elaborazione, evidenziando i potenziali vantaggi in termini di utilizzo della memoria e velocità. Il post Sua ha catalizzato un intenso dibattito tra sviluppatori e ricercatori in forum specializzati sulla fattibilità di estendere questa tecnica per addestrare completamente i modelli linguistici.

L’entusiasmo della comunità open source era evidente, con il progetto su GitHub che ha raccolto più di 4.000 stelle in sole 24 ore dal suo annuncio. Il rapido coinvolgimento di Esse segnala un forte interesse nella sperimentazione e nell’adattamento della tecnologia, indicando una potenziale adozione accelerata da parte di sviluppatori e aziende di tutto il mondo.

Applicazioni pratiche e impatto aziendale

Le implicazioni di DeepSeek-OCR per l’ambiente aziendale sono vaste e trasformative. Con questa tecnologia, le aziende possono superare i limiti dei prompt frammentati consentendo loro di caricare intere basi di conoscenza, come documentazione tecnica, manuali di prodotto o repository di codice sorgente, in un’unica interazione AI. Isso elimina la necessità di ricerche sequenziali e consente un’analisi più olistica e contestuale.

Jeffrey Emanuel, un ex investitore quantitativo, ha evidenziato il potenziale della tecnologia nel creare cache tempestive con milioni di token, che ridurrebbe drasticamente la latenza nelle query aziendali complesse. La capacità di elaborare nove diversi tipi di PDF, inclusi articoli accademici, giornali e relazioni annuali, accelera le analisi che in precedenza richiedevano settimane di lavoro manuale, liberando i team di concentrarsi su approfondimenti strategici.

Il meccanismo tecnico di DeepEncoder

L’architettura alla base delle prestazioni di DeepSeek-OCR è incentrata sul componente DeepEncoder. L’ingegneria del software Esta integra modelli avanzati per eseguire attività specifiche in modo altamente ottimizzato.

Inizialmente, modelli come Segment Anything Model (SAM) vengono utilizzati per la segmentazione precisa del layout e degli elementi nell’immagine del documento. Parallelamente, il modello CLIP (Contrastive Language–Image Pre-training) fornisce una comprensione del contesto globale della pagina.

Dopo questa prima analisi, entra in azione un compressore che riduce fino a 16 volte il numero di token generati. La compressione aggressiva Essa è ciò che consente al sistema di essere efficiente, riducendo il carico di dati che deve essere elaborato nei passaggi successivi.

Il risultato è un framework che attiva solo 570 milioni di parametri durante l’inferenza, grazie a un decoder MoE (Mixture of Experts) che seleziona dinamicamente gli “esperti” neurali più rilevanti per ogni compito. Il design intelligente Esse consente un’elaborazione estremamente rapida, con la capacità di analizzare 33 milioni di pagine al giorno su un cluster da 20 nodi con GPU A100.

Sfide tecniche e futuro della tecnologia

Nonostante la sua notevole efficienza nell’archiviazione e nella ricostruzione dei dati, DeepSeek-OCR deve ancora affrontare dei limiti. L’attuale focus della tecnologia è più sul recupero fedele delle informazioni che sul ragionamento avanzato sui contenuti visivamente compressi. Gli aspetti pratici Desafios, come le variazioni di risoluzione, colore e qualità di scansione nei documenti del mondo reale, possono influire sulla precisione e richiedere ulteriori ricerche per essere completamente superati.

I prossimi passi della ricerca prevedono il pre-addestramento interfogliato del testo digitale e ottico, cercando di migliorare la capacità del modello di comprendere entrambi i formati in modo nativo. Il team prevede inoltre di eseguire valutazioni più complesse, come i test “dell’ago nel pagliaio”, per misurare l’accuratezza nel recupero di informazioni specifiche da grandi volumi di dati. Il rilascio del modello in formato open source è un invito rivolto alla comunità globale a contribuire con adattamenti e miglioramenti, con piani futuri per espandere la tecnologia all’elaborazione di immagini naturali e figure geometriche complesse.

Supporto multilingue e versatilità dei documenti

Uno degli elementi di differenziazione competitiva di DeepSeek-OCR sono le sue ampie capacità linguistiche, che offrono supporto per circa 100 lingue. Isso lo rende uno strumento globale, capace di servire organizzazioni multinazionali e progetti di ricerca internazionali. Il modello è stato addestrato con un vasto dataset, contenente 30 milioni di pagine in cinese e inglese, che garantisce robustezza e accuratezza nelle lingue più utilizzate nel mondo degli affari e della scienza. La versatilità di Essa consente di applicare la tecnologia a una vasta gamma di documenti, accelerando l’analisi di grandi archivi di conoscenze, indipendentemente dalla lingua o dal formato originale.