Notizie (IT)

La nuova intelligenza artificiale di DeepSeek trasforma il testo in immagine e ottiene la compressione dei dati con una precisione del 97%.

DeepSeek
DeepSeek - Foto: Photo Nature Travel / Shutterstock.com DeepSeek - Foto: Photo Nature Travel / Shutterstock.com

La società tecnologica cinese DeepSeek ha annunciato un’innovazione significativa nel campo dell’intelligenza artificiale con il rilascio di DeepSeek-OCR, un modello progettato per superare una delle maggiori barriere dei modelli linguistici di grandi dimensioni (LLM): la limitazione della finestra di contesto. Il nuovo approccio converte il testo in una rappresentazione visiva, consentendo una compressione dei dati fino a dieci volte maggiore senza una sostanziale perdita di informazioni.

Questa tecnica consente ai sistemi di intelligenza artificiale di elaborare enormi volumi di documenti in modo più rapido ed economico, mantenendo una precisione del 97% nel recupero dei contenuti originali. Lo sviluppo, dettagliato in un articolo tecnico, risponde direttamente alla crescente domanda di elaborazione dati su larga scala senza il conseguente aumento dei costi computazionali.

Il problema principale che DeepSeek-OCR mira a risolvere è la capacità finita degli LLM di “ricordare” o elaborare le informazioni in un’unica interazione. Trasformando il testo in immagini compatte, la tecnologia supera la necessità di elaborare lunghe sequenze di token di testo, che costituiscono l’unità di base delle informazioni per questi modelli, ottimizzando l’uso delle risorse e aprendo nuove possibilità per l’analisi di documenti complessi.

Inteligência Artificial
Intelligenza Artificial – Foto: Owlie Productions/ Shutterstock.com

L’innovazione dietro la compressione visiva

DeepSeek-OCR opera con un processo in due fasi che altera radicalmente il modo in cui le informazioni testuali vengono gestite dai sistemi di intelligenza artificiale. Primeiramente, il modello riceve il testo in input e lo converte internamente in immagini bidimensionali, come se stesse “stampando” il contenuto su uno schermo digitale. Codificatori visivi specializzati analizzano quindi queste immagini e le comprimono in un numero molto più piccolo di token visivi. La strategia Essa è fondamentale per l’efficienza del sistema, poiché riduce drasticamente il carico computazionale richiesto per l’elaborazione. Confronto Para, modelli concorrenti come GOT-OCR2.0 richiedono circa 256 token per elaborare una singola pagina, mentre DeepSeek-OCR esegue la stessa attività con solo 100 token visivi, rappresentando un’ottimizzazione di oltre il 60%.

Uno degli aspetti più sofisticati di questa tecnologia è l’implementazione di un sistema di compressione variabile che imita il funzionamento della memoria umana. Il modello assegna una maggiore risoluzione e, di conseguenza, più token ai contesti più recenti e rilevanti, mentre le informazioni più vecchie o con priorità inferiore vengono archiviate in modo meno dettagliato e utilizzando meno token. Essa L’allocazione dinamica delle risorse garantisce che la precisione venga mantenuta dove è maggiormente necessaria, ottimizzando al tempo stesso l’archiviazione a lungo termine. La capacità del modello di gestire circa 100 lingue diverse e di elaborare elementi non testuali come grafici, tabelle complesse e formule chimiche ne amplia ulteriormente l’applicabilità in scenari del mondo reale, rendendolo uno strumento versatile per digitalizzare e analizzare la conoscenza su scala globale.

[[MVG_PROTECTED_BLOCK_0]

Efficienza e performance in numeri

La superiorità di DeepSeek-OCR è stata convalidata in rigorosi test di riferimento come OmniDocBench, dove ha notevolmente sovraperformato i modelli all’avanguardia. Un esempio notevole è il confronto con MinerU, che consuma più di 6mila token per analizzare una singola pagina di documento. Al contrario, il modello DeepSeek esegue la stessa attività utilizzando meno di 800 token, il che rappresenta una riduzione di quasi il 90% nel consumo di risorse. Mesmo Quando il tasso di compressione viene aumentato a 20 volte, con un conseguente calo della precisione del 60%, la tecnologia si rivela ancora valida per applicazioni che richiedono l’analisi di contesti estremamente lunghi, dove una visione d’insieme è più importante dei minimi dettagli. L’efficienza Essa non solo accelera la lavorazione, ma genera anche un risparmio sui costi operativi, che può raggiungere il 90%, secondo le analisi di produzione. La versatilità del modello è un altro punto di forza, dimostrando la sua capacità di elaborare documenti con layout irregolari, come report finanziari, fatture e persino note scritte a mano, oltre a generare dati sintetici di alta qualità per la formazione di altri LLM, ampliando i set di dati disponibili. La compatibilità con diverse risoluzioni, che vanno da 64 a 400 token per immagine, garantisce flessibilità per le diverse esigenze applicative.

Ripercussioni nella comunità dell’intelligenza artificiale

Il lancio di DeepSeek-OCR ha generato reazioni immediate e positive da parte di figure di spicco della comunità AI. Andrej Karpathy, co-fondatore di OpenAI e una delle voci più rispettate nel settore, ha elogiato pubblicamente la ricerca.

[[MVG_PROTECTED_BLOCK_0]

Nella sua analisi, Karpathy ha sollevato la questione fondamentale se i pixel potrebbero diventare uno strumento di input più efficiente rispetto ai token di testo per LLM, suggerendo la possibilità di rendere tutto il testo come un’immagine per ottimizzare l’elaborazione.

Il post ha innescato un intenso dibattito tra sviluppatori e ricercatori in forum specializzati sulla fattibilità di estendere questa tecnica per addestrare completamente modelli linguistici, evidenziando i potenziali vantaggi in termini di utilizzo della memoria e velocità.

L’entusiasmo da parte della comunità open source era evidente, con il progetto su GitHub che ha accumulato oltre 4.000 stelle in sole 24 ore dall’annuncio, segnalando un forte interesse nella sperimentazione e nell’adattamento della tecnologia.

Applicazioni pratiche e impatto aziendale

Le implicazioni di DeepSeek-OCR per l’ambiente aziendale sono vaste e trasformative. Con questa tecnologia, le aziende possono superare i limiti dei prompt frammentati consentendo loro di caricare intere basi di conoscenza, come documentazione tecnica, manuali di prodotto o repository di codice sorgente, in un’unica interazione AI.

Ciò elimina la necessità di ricerche sequenziali e consente un’analisi più olistica e contestuale. Jeffrey Emanuel, un ex investitore quantitativo, ha evidenziato il potenziale della tecnologia per creare rapidamente cache contenenti milioni di token, il che ridurrebbe drasticamente la latenza per query aziendali complesse, accelerando le analisi che in precedenza richiedevano settimane di lavoro manuale.

Il meccanismo tecnico di DeepEncoder

L’architettura alla base dell’efficienza di DeepSeek-OCR è incentrata sul componente DeepEncoder. L’ingegneria del software Essa integra modelli avanzati per eseguire attività specifiche in modo altamente ottimizzato.

Inizialmente, modelli come Segment Anything Model (SAM) vengono utilizzati per segmentare accuratamente il layout e gli elementi dell’immagine del documento.

Allo stesso tempo, il modello CLIP (Contrastive Language–Image Pre-training) garantisce la comprensione del contesto globale della pagina.

Dopo questa prima analisi, entra in azione un compressore che riduce fino a 16 volte il numero di token generati, garantendo l’efficienza del sistema e riducendo il carico di dati da elaborare nei passaggi successivi.

Sfide tecniche e futuro della tecnologia

Nonostante le sue notevoli prestazioni nell’archiviazione e nella ricostruzione dei dati, DeepSeek-OCR deve ancora affrontare dei limiti. Atualmente, la tecnologia si concentra più sul recupero fedele delle informazioni che sul ragionamento avanzato sui contenuti visivamente compressi.

Sfide pratiche come le variazioni nella risoluzione, nel colore e nella qualità della scansione nei documenti del mondo reale possono influire sulla precisione e richiedere ulteriori ricerche per essere completamente superate. I prossimi passi della ricerca includono il pre-addestramento interleaved del testo digitale e ottico, con l’obiettivo di migliorare la capacità del modello di comprendere nativamente entrambi i formati.

Supporto multilingue e versatilità

Uno degli elementi di differenziazione competitiva di DeepSeek-OCR sono le sue ampie capacità linguistiche, che offrono supporto per circa 100 lingue. Isso lo rende uno strumento globale, capace di servire organizzazioni internazionali e progetti di ricerca multinazionali. Il modello è stato addestrato su un vasto dataset, contenente 30 milioni di pagine in cinese e inglese, garantendo robustezza e accuratezza nelle lingue più utilizzate nel mondo degli affari e della scienza.

To Top