Nova IA da DeepSeek transforma texto em imagem e alcança compressão de dados com 97% de precisão

DeepSeek

DeepSeek - Foto: Photo Nature Travel / Shutterstock.com

A empresa de tecnologia chinesa DeepSeek anunciou uma inovação significativa no campo da inteligência artificial com o lançamento do DeepSeek-OCR, um modelo projetado para superar uma das maiores barreiras dos grandes modelos de linguagem (LLMs): a limitação da janela de contexto. A nova abordagem converte texto em uma representação visual, permitindo uma compressão de dados até dez vezes maior sem perda substancial de informação.

Essa técnica permite que sistemas de IA processem volumes massivos de documentos de forma mais rápida e econômica, mantendo uma precisão de 97% na recuperação do conteúdo original. O desenvolvimento, detalhado em um artigo técnico, responde diretamente à crescente demanda por processamento de dados em larga escala sem o consequente aumento nos custos computacionais.

O problema central que o DeepSeek-OCR visa resolver é a capacidade finita dos LLMs de “lembrar” ou processar informações em uma única interação. Ao transformar o texto em imagens compactas, a tecnologia contorna a necessidade de processar longas sequências de tokens de texto, que são a unidade básica de informação para esses modelos, otimizando o uso de recursos e abrindo novas possibilidades para a análise de documentos complexos.

Inteligencja Artificial – Foto: Owlie Productions/ Shutterstock.com

A inovação por trás da compressão visual

O DeepSeek-OCR opera com um processo de duas etapas que altera radicalmente como as informações textuais são tratadas por sistemas de IA. Primeiramente, o modelo recebe o texto de entrada e o converte internamente em imagens bidimensionais, como se estivesse “imprimindo” o conteúdo em uma tela digital. Em seguida, codificadores visuais especializados analisam essas imagens e as comprimem em um número muito menor de tokens visuais. Essa estratégia é fundamental para a eficiência do sistema, pois reduz drasticamente a carga computacional necessária para o processamento. Para comparação, modelos concorrentes como o GOT-OCR2.0 exigem cerca de 256 tokens para processar uma única página, enquanto o DeepSeek-OCR realiza a mesma tarefa com apenas 100 tokens visuais, representando uma otimização superior a 60%.

Um dos aspectos mais sofisticados desta tecnologia é a implementação de um sistema de compressão variável que imita o funcionamento da memória humana. O modelo atribui maior resolução e, consequentemente, mais tokens aos contextos mais recentes e relevantes, enquanto informações mais antigas ou menos prioritárias são armazenadas com menor detalhe e usando menos tokens. Essa alocação dinâmica de recursos garante que a precisão seja mantida onde é mais necessária, ao mesmo tempo que otimiza o armazenamento a longo prazo. A capacidade do modelo de lidar com aproximadamente 100 idiomas diferentes e processar elementos não textuais, como gráficos, tabelas complexas e fórmulas químicas, expande ainda mais sua aplicabilidade em cenários do mundo real, tornando-o uma ferramenta versátil para digitalização e análise de conhecimento em escala global.

[[MVG_PROTECTED_BLOCK_0]

Eficiência e desempenho em números

A superioridade do DeepSeek-OCR foi validada em testes rigorosos de benchmark, como o OmniDocBench, onde superou significativamente os modelos de ponta. Um exemplo notável é a comparação com o MinerU, que consome mais de 6 mil tokens para analisar uma única página de documento. Em contrapartida, o modelo da DeepSeek executa a mesma tarefa utilizando menos de 800 tokens, o que representa uma redução de quase 90% no consumo de recursos. Mesmo quando a taxa de compressão é elevada para 20 vezes, resultando em uma queda de 60% na precisão, a tecnologia ainda se mostra viável para aplicações que exigem a análise de contextos extremamente longos, onde uma visão geral é mais importante do que os detalhes minuciosos. Essa eficiência não apenas acelera o processamento, mas também gera economia nos custos operacionais, que podem chegar a 90%, segundo análises de produção. A versatilidade do modelo é outro ponto forte, demonstrando capacidade para processar documentos com layouts irregulares, como relatórios financeiros, faturas e até notas manuscritas, além de gerar dados sintéticos de alta qualidade para o treinamento de outros LLMs, ampliando os conjuntos de dados disponíveis. A compatibilidade com diferentes resoluções, variando de 64 a 400 tokens por imagem, garante flexibilidade para diversas necessidades de aplicação.

Repercussão na comunidade de inteligência artificial

O lançamento do DeepSeek-OCR gerou reações imediatas e positivas de figuras proeminentes da comunidade de IA. Andrej Karpathy, cofundador da OpenAI e uma das vozes mais respeitadas na área, elogiou publicamente a pesquisa.

[[MVG_PROTECTED_BLOCK_0]

Em sua análise, Karpathy levantou a questão fundamental sobre se os pixels poderiam se tornar uma ferramenta de entrada mais eficiente do que os tokens de texto para os LLMs, sugerindo a possibilidade de renderizar todo o texto como uma imagem para otimizar o processamento.

A postagem desencadeou um intenso debate entre desenvolvedores e pesquisadores em fóruns especializados sobre a viabilidade de estender essa técnica para o treinamento completo de modelos de linguagem, destacando os potenciais benefícios em termos de uso de memória e velocidade.

O entusiasmo da comunidade de código aberto foi evidente, com o projeto no GitHub acumulando mais de 4.000 estrelas em apenas 24 horas após o anúncio, sinalizando um forte interesse em experimentar e adaptar a tecnologia.

Aplicações práticas e o impacto nos negócios

As implicações do DeepSeek-OCR para o ambiente corporativo são vastas e transformadoras. Com essa tecnologia, as empresas podem superar as limitações de prompts fragmentados, permitindo carregar bases de conhecimento inteiras, como documentação técnica, manuais de produtos ou repositórios de código-fonte, em uma única interação com a IA.

Isso elimina a necessidade de buscas sequenciais e permite uma análise mais holística e contextual. Jeffrey Emanuel, um ex-investidor quantitativo, destacou o potencial da tecnologia para criar rapidamente caches contendo milhões de tokens, o que reduziria drasticamente a latência para consultas corporativas complexas, acelerando análises que antes demandavam semanas de trabalho manual.

O mecanismo técnico do DeepEncoder

A arquitetura por trás da eficiência do DeepSeek-OCR está centrada no componente DeepEncoder. Essa engenharia de software integra modelos avançados para realizar tarefas específicas de maneira altamente otimizada.

Inicialmente, modelos como o Segment Anything Model (SAM) são usados para segmentar com precisão o layout e os elementos da imagem do documento.

Paralelamente, o modelo CLIP (Contrastive Language–Image Pre-training) garante a compreensão do contexto global da página.

Após essa análise inicial, um compressor entra em ação, reduzindo o número de tokens gerados em até 16 vezes, o que garante a eficiência do sistema e diminui a carga de dados a ser processada nas etapas seguintes.

Desafios técnicos e o futuro da tecnologia

Apesar de seu desempenho notável no armazenamento e reconstrução de dados, o DeepSeek-OCR ainda enfrenta limitações. Atualmente, a tecnologia foca mais na recuperação fiel de informações do que no raciocínio avançado sobre o conteúdo visualmente comprimido.

Desafios práticos, como variações de resolução, cor e qualidade de digitalização em documentos do mundo real, podem impactar a precisão e exigem mais pesquisas para serem totalmente superados. Os próximos passos da pesquisa incluem o pré-treinamento intercalado de texto digital e óptico, visando aprimorar a capacidade do modelo de compreender nativamente ambos os formatos.

Suporte multilíngue e versatilidade

Um dos diferenciais competitivos do DeepSeek-OCR é sua ampla capacidade linguística, oferecendo suporte para cerca de 100 idiomas. Isso o torna uma ferramenta global, capaz de atender organizações internacionais e projetos de pesquisa multinacionais. O modelo foi treinado em um vasto conjunto de dados, contendo 30 milhões de páginas em chinês e inglês, garantindo robustez e precisão nos idiomas mais utilizados no mundo dos negócios e da ciência.

Zobacz też