News (RO)

Compresia AI text-to-image atinge o precizie de 97% cu noua tehnologie DeepSeek

DeepSeek
DeepSeek - Foto: Photo Nature Travel / Shutterstock.com DeepSeek - Foto: Photo Nature Travel / Shutterstock.com

Compania chineză de tehnologie DeepSeek a anunțat o inovație semnificativă în domeniul inteligenței artificiale odată cu lansarea DeepSeek-OCR, un model conceput pentru a depăși una dintre cele mai mari bariere ale modelelor de limbaj mari (LLM): limitarea ferestrei de context. Noua abordare convertește textul în reprezentări vizuale, permițând comprimarea datelor de până la zece ori fără pierderi substanțiale de informații. Tehnica Essa permite sistemelor AI să proceseze volume masive de documente mai rapid și mai rentabil, menținând în același timp o rată de acuratețe de 97% în preluarea conținutului original. Dezvoltarea, detaliată într-o publicație tehnică din 20 octombrie 2025, răspunde direct la cererea tot mai mare de prelucrare a datelor la scară largă, fără creșterea în consecință a costurilor de calcul.

Problema centrală pe care DeepSeek-OCR își propune să o rezolve este capacitatea limitată a LLM-urilor de a „reține” sau procesa informații într-o singură interacțiune. Prin transformarea textului în imagini compacte, tehnologia ocolește nevoia de a procesa secvențe lungi de jetoane textuale, care sunt unitatea de bază de informații pentru aceste modele. Conversia Essa în domeniul vizual nu numai că optimizează utilizarea resurselor, dar deschide și noi posibilități de analiză a documentelor complexe, precum rapoarte financiare, articole științifice și chiar coduri sursă software, într-un mod integrat și eficient.

Metodologia se remarcă prin eficiență. În teste comparative, modelul a demonstrat că este capabil să genereze peste 200.000 de pagini de date pe zi folosind un singur GPU Nvidia A100, o performanță care stabilește un nou standard de performanță pentru recunoașterea optică a caracterelor (OCR) și sarcinile de procesare a documentelor. Abordarea inovatoare a DeepSeek poate accelera adoptarea AI în industriile care se bazează pe analiza intensivă a documentelor, cum ar fi finanțele, dreptul și mediul academic.

Inteligência Artificial
Inteligență Artificial – Foto: Owlie Productions/ Shutterstock.com

Inovația din spatele compresiei vizuale

DeepSeek-OCR funcționează pe baza unui proces în doi pași care transformă radical modul în care informațiile textuale sunt gestionate de sistemele AI. Primeiramente, modelul primește intrări de text și le convertește intern în imagini bidimensionale, de parcă ar „tipărește” conținutul pe un ecran digital. Codificatorii vizuali specializați analizează apoi aceste imagini și le comprimă într-un număr mult mai mic de simboluri vizuale. Strategia Essa este fundamentală pentru eficiența sistemului, deoarece reduce drastic sarcina de calcul necesară procesării. În comparație, modelele concurente precum GOT-OCR2.0 necesită aproximativ 256 de jetoane pentru a procesa o singură pagină, în timp ce DeepSeek-OCR îndeplinește aceeași sarcină cu doar 100 de jetoane vizuale, reprezentând o optimizare de peste 60%.

Unul dintre cele mai sofisticate aspecte ale tehnologiei este implementarea unui sistem de compresie variabilă, care imită modul în care funcționează memoria umană. Modelul atribuie o rezoluție mai mare și, în consecință, mai multe jetoane, contextelor cele mai recente și relevante, în timp ce informațiile mai vechi sau mai puțin prioritare sunt stocate mai puțin detaliat, folosind mai puține jetoane. Essa Alocarea dinamică a resurselor asigură menținerea preciziei acolo unde este cea mai necesară, optimizând în același timp stocarea pe termen lung. Capacitatea modelului de a manipula aproximativ 100 de limbi diferite și de a procesa elemente non-textuale, cum ar fi grafice, tabele complexe și formule chimice, își extinde și mai mult aplicabilitatea în scenarii din lumea reală, făcându-l un instrument versatil pentru digitizarea și analiza cunoștințelor la scară globală.

[[MVG_PROTECTED_BLOCK_0]

Eficiență și performanță în cifre

Superioritatea DeepSeek-OCR a fost validată în benchmark-uri riguroase, cum ar fi OmniDocBench, unde a depășit semnificativ modelele de ultimă generație. Un exemplu notabil este comparația cu MinerU0, care consumă mai mult de 6 mii de jetoane pentru a analiza o singură pagină de document. În schimb, modelul DeepSeek îndeplinește aceeași sarcină cu mai puțin de 800 de jetoane, o reducere de aproape 90% a consumului de resurse. Mesmo atunci când rata de compresie este crescută de 20 de ori, rezultând o scădere a preciziei de 60%, tehnologia încă se dovedește viabilă pentru aplicațiile care necesită analiza unor contexte extrem de lungi, unde vederea de ansamblu este mai importantă decât detaliile minuscule. Performanța Essa nu numai că accelerează procesarea, dar generează și economii ale costurilor operaționale care pot ajunge la 90%, conform analizelor de producție. Versatilitatea modelului este un alt punct forte, demonstrând capacitatea sa de a procesa documente cu aspect neregulat, precum rapoarte financiare, facturi și chiar note scrise de mână, precum și de a genera date sintetice de înaltă calitate pentru formarea altor LLM, extinzând seturile de date disponibile. Compatibilitatea cu diferite rezoluții, variind de la 64 la 400 de jetoane per imagine, asigură flexibilitate pentru diferitele nevoi ale aplicațiilor.

Repercusiuni în comunitatea inteligenței artificiale

Lansarea DeepSeek-OCR a generat reacții imediate și pozitive din partea unor personalități proeminente din comunitatea AI. Andrej Karpathy, co-fondatorul OpenAI și una dintre cele mai respectate voci din domeniu, a lăudat public cercetarea, ridicând o întrebare fundamentală: dacă pixelii ar putea deveni o intrare mai eficientă decât simbolurile de text pentru LLM.

În analiza sa, Karpathy a sugerat posibilitatea redării întregului text ca imagine pentru optimizarea procesării, evidențiind potențialele avantaje în ceea ce privește utilizarea memoriei și viteza. Postarea Sua a catalizat o dezbatere intensă între dezvoltatori și cercetători din forumuri specializate despre fezabilitatea extinderii acestei tehnici pentru a antrena pe deplin modelele lingvistice.

Entuziasmul comunității open source a fost evident, proiectul de pe GitHub strângând peste 4.000 de stele în doar 24 de ore de la anunț. Angajamentul rapid Esse semnalează un interes puternic pentru experimentarea și adaptarea tehnologiei, indicând o potențială adoptare accelerată de către dezvoltatori și companii din întreaga lume.

Aplicații practice și impact asupra afacerii

Implicațiile DeepSeek-OCR pentru mediul de întreprindere sunt vaste și transformatoare. Cu această tehnologie, companiile pot depăși limitările prompturilor fragmentate, permițându-le să încarce baze întregi de cunoștințe, cum ar fi documentația tehnică, manualele de produse sau arhivele de cod sursă, într-o singură interacțiune AI. Isso elimină necesitatea căutărilor secvențiale și permite o analiză mai holistică și contextuală.

Jeffrey Emanuel, un fost investitor cantitativ, a evidențiat potențialul tehnologiei de a crea cache-uri prompte cu milioane de jetoane, care ar reduce drastic latența în interogările complexe ale întreprinderilor. Capacitatea de a procesa nouă tipuri diferite de PDF-uri, inclusiv articole academice, ziare și rapoarte anuale, accelerează analizele care anterior necesitau săptămâni de lucru manual, eliberând echipele să se concentreze pe perspective strategice.

Mecanismul tehnic al DeepEncoder

Arhitectura din spatele performanței DeepSeek-OCR este centrată în jurul componentei sale DeepEncoder. Esta piesa de inginerie software integrează modele avansate pentru a îndeplini sarcini specifice într-un mod extrem de optimizat.

Inițial, modelele precum Segment Anything Model (SAM) sunt folosite pentru segmentarea precisă a aspectului și a elementelor din imaginea documentului. În paralel, modelul CLIP (Contrastive Language–Image Pre-training) oferă o înțelegere a contextului global al paginii.

După această analiză inițială, intră în acțiune un compresor, reducând numărul de jetoane generate de până la 16 ori. Compresia agresivă Essa este cea care permite sistemului să fie eficient, reducând încărcarea de date care trebuie procesată în următorii pași.

Rezultatul este un cadru care activează doar 570 de milioane de parametri în timpul inferenței, datorită unui decodor MoE (Mixture of Experts) care selectează dinamic cei mai relevanți „experți” neuronali pentru fiecare sarcină. Designul inteligent Esse permite o procesare extrem de rapidă, cu capacitatea de a analiza 33 de milioane de pagini pe zi pe un cluster cu 20 de noduri cu GPU-uri A100.

Provocări tehnice și viitorul tehnologiei

În ciuda eficienței sale remarcabile în stocarea și reconstrucția datelor, DeepSeek-OCR se confruntă în continuare cu limitări. Accentul actual al tehnologiei este mai mult pe recuperarea fidelă a informațiilor decât pe raționamentul avansat despre conținutul comprimat vizual. Caracteristicile practice Desafios, cum ar fi variațiile de rezoluție, culoare și calitatea scanării în documentele din lumea reală, pot afecta acuratețea și necesită cercetări suplimentare pentru a le depăși pe deplin.

Următorii pași ai cercetării implică pre-formarea intercalată a textului digital și optic, urmărind să îmbunătățească capacitatea modelului de a înțelege ambele formate în mod nativ. Echipa intenționează, de asemenea, să efectueze evaluări mai complexe, cum ar fi teste „acul în carul de fân”, pentru a măsura acuratețea în preluarea informațiilor specifice din volume mari de date. Lansarea modelului în format open source este o invitație pentru comunitatea globală de a contribui cu adaptări și îmbunătățiri, cu planuri viitoare de extindere a tehnologiei la procesarea imaginilor naturale și a figurilor geometrice complexe.

Suport multilingv și versatilitate a documentelor

Unul dintre diferențiatorii competitivi ai DeepSeek-OCR îl reprezintă capacitățile sale lingvistice largi, oferind suport pentru aproximativ 100 de limbi. Isso îl face un instrument global, capabil să servească organizațiilor multinaționale și proiectelor internaționale de cercetare. Modelul a fost antrenat cu un set vast de date, care conține 30 de milioane de pagini în chineză și engleză, ceea ce garantează robustețe și acuratețe în limbile cele mai utilizate în lumea afacerilor și științei. Versatilitatea Essa permite ca tehnologia să fie aplicată unei game variate de documente, accelerând analiza depozitelor mari de cunoștințe, indiferent de limba sau formatul original.

To Top