Actualités (FR)

DeepSeek révolutionne l’IA avec une compression de texte dans l’image qui atteint une fidélité de 97 %

DeepSeek
Photo: DeepSeek - Photo: Photo Nature Travel / Shutterstock.com

La société technologique chinoise DeepSeek a annoncé une innovation significative dans le domaine de l’intelligence artificielle avec la sortie de DeepSeek-OCR, un modèle conçu pour surmonter l’un des plus grands obstacles des grands modèles de langage (LLM) : la limitation de la fenêtre contextuelle. La nouvelle approche transforme le texte en une représentation visuelle, permettant une compression des données jusqu’à dix fois supérieure sans perte substantielle d’informations.

Cette technique permet aux systèmes d’IA de traiter des volumes massifs de documents plus rapidement et de manière plus rentable, tout en conservant une précision de 97 % dans la récupération du contenu original. Le développement, détaillé dans un article technique daté du 20 octobre 2025, répond directement à la demande croissante de traitement de données à grande échelle sans l’augmentation conséquente des coûts de calcul.

Le principal problème que DeepSeek-OCR vise à résoudre est la capacité limitée des LLM à « se souvenir » ou à traiter des informations en une seule interaction. En convertissant le texte en images compactes, la technologie évite le besoin de traiter de longues séquences de jetons de texte, qui constituent l’unité d’information de base de ces modèles, optimisant ainsi l’utilisation des ressources et ouvrant de nouvelles possibilités d’analyse de documents complexes.

Inteligência Artificial
Renseignement Artificial – Foto : Owlie Productions/ Shutterstock.com

Innovation derrière la compression visuelle

DeepSeek-OCR fonctionne selon un processus en deux étapes qui modifie radicalement la façon dont les informations textuelles sont traitées par les systèmes d’IA. Primeiramente, le modèle reçoit le texte saisi et le convertit en interne en images bidimensionnelles, comme s’il « imprimait » le contenu sur un écran numérique. Des encodeurs visuels spécialisés analysent ensuite ces images et les compressent en un nombre beaucoup plus réduit de jetons visuels. La stratégie Essa est fondamentale pour l’efficacité du système, car elle réduit considérablement la charge de calcul requise pour le traitement. L’un des aspects les plus sophistiqués de cette technologie est la mise en œuvre d’un système de compression variable qui imite le fonctionnement de la mémoire humaine. Le modèle attribue une plus grande résolution et, par conséquent, plus de jetons aux contextes les plus récents et les plus pertinents, tandis que les informations plus anciennes ou moins prioritaires sont stockées avec moins de détails et en utilisant moins de jetons. Essa L’allocation dynamique des ressources garantit que la précision est maintenue là où elle est le plus nécessaire, tout en optimisant le stockage à long terme. La capacité du modèle à gérer environ 100 langues différentes et à traiter des éléments non textuels tels que des graphiques, des tableaux complexes et des formules chimiques étend encore son applicabilité dans des scénarios réels, ce qui en fait un outil polyvalent pour numériser et analyser les connaissances à l’échelle mondiale.

Efficacité et performance en chiffres

La supériorité de DeepSeek-OCR a été validée par des tests de référence rigoureux tels que OmniDocBench, où il a largement surpassé les modèles de pointe. Lors de tests comparatifs, il a été démontré que le modèle était capable de générer plus de 200 000 pages de données par jour à l’aide d’un seul GPU Nvidia A100, établissant ainsi une nouvelle norme de performance en matière de reconnaissance optique de caractères (OCR) et de tâches de traitement de documents.

[[MVG_PROTECTED_BLOCK_0]

L’efficacité accélère non seulement le traitement, mais génère également des économies sur les coûts opérationnels, qui peuvent atteindre 90 %, selon les analyses de production. La polyvalence du modèle est un autre point fort, démontrant sa capacité à traiter des documents avec des mises en page irrégulières, tels que des rapports financiers, des factures et même des notes manuscrites, ainsi qu’à générer des données synthétiques de haute qualité pour former d’autres LLM, élargissant ainsi les ensembles de données disponibles. La compatibilité avec différentes résolutions, de 64 à 400 jetons par image, garantit une flexibilité pour les différents besoins des applications.

Le mécanisme technique de DeepEncoder

L’architecture derrière les performances de DeepSeek-OCR est centrée sur le composant DeepEncoder. L’ingénierie logicielle Esta intègre des modèles avancés pour effectuer des tâches spécifiques de manière hautement optimisée. Inicialmente, des modèles tels que Segment Anything Model (SAM) sont utilisés pour segmenter avec précision la mise en page et les éléments d’image du document. Paralelamente, le modèle CLIP (Contrastive Language–Image Pre-training) assure la compréhension du contexte global de la page. Após Cette première analyse, un compresseur entre en action pour réduire jusqu’à 16 fois le nombre de jetons générés, ce qui garantit l’efficacité du système. Le résultat est un cadre qui, lors de l’inférence, active seulement 570 millions de paramètres, grâce à un décodeur MoE (Mixture of Experts) qui sélectionne dynamiquement les « experts » neuronaux les plus appropriés pour chaque tâche.

[[MVG_PROTECTED_BLOCK_0]

Répercussions dans la communauté de l’intelligence artificielle

Le lancement de DeepSeek-OCR a généré des réactions immédiates et positives de la part de personnalités éminentes de la communauté de l’IA. Andrej Karpathy, co-fondateur d’OpenAI, a publiquement salué l’étude.

Dans son analyse, Karpathy a soulevé la question fondamentale de savoir si les pixels pourraient devenir un outil de saisie plus efficace que les jetons de texte pour les LLM.

Son message a déclenché un débat intense entre développeurs et chercheurs dans des forums spécialisés sur la faisabilité d’étendre cette technique pour entraîner pleinement des modèles de langage.

Applications pratiques et impact commercial

Les implications de DeepSeek-OCR pour l’environnement d’entreprise sont vastes et transformatrices. Grâce à cette technologie, les entreprises peuvent surmonter les limites des invites fragmentées.

Cela vous permet de charger des bases de connaissances entières, telles que de la documentation technique, des manuels de produits ou des référentiels de codes sources, en une seule interaction avec l’IA.

Jeffrey Emanuel, un ancien investisseur quantitatif, a souligné le potentiel de la technologie pour créer rapidement des caches contenant des millions de jetons, ce qui réduirait considérablement la latence des requêtes d’entreprise complexes.

La possibilité de traiter neuf types différents de fichiers PDF, notamment des articles universitaires, des journaux et des rapports annuels, accélère les analyses qui nécessitaient auparavant des semaines de travail manuel.

Défis techniques et avenir de la technologie

Malgré des performances remarquables en matière de stockage et de reconstruction des données, DeepSeek-OCR reste confronté à des limites. Atualmente, la technologie se concentre davantage sur la récupération fidèle d’informations que sur un raisonnement avancé sur le contenu visuellement compressé.

Les défis pratiques tels que les variations de résolution, de couleur et de qualité de numérisation dans les documents réels peuvent avoir un impact sur la précision et nécessitent des recherches plus approfondies pour être pleinement surmontés.

Prise en charge multilingue et polyvalence des documents

L’un des différenciateurs compétitifs de DeepSeek-OCR réside dans ses vastes capacités linguistiques, offrant une prise en charge d’environ 100 langues. Isso en fait un outil global, capable de servir les organisations internationales et les projets de recherche multinationaux.

Le modèle a été formé sur un vaste ensemble de données, contenant 30 millions de pages en chinois et en anglais, ce qui garantit robustesse et précision dans les langues les plus utilisées dans le monde des affaires et de la science. L’universalité de Essa permet d’appliquer la technologie à un large éventail de documents, accélérant ainsi l’analyse de vastes référentiels de connaissances, quel que soit la langue ou le format d’origine.

Veja Tambem em Actualités (FR)