Google revela Gemini 2.5 com áudio nativo e melhorias para desenvolvedores

Gemini 2.5

Gemini 2.5 - Foto: Robert Way / Shutterstock.com

A tecnologia de inteligência artificial avança em ritmo acelerado, e o Google anunciou atualizações significativas para a série de modelos Gemini 2.5. A versão Pro continua sendo a escolha preferida dos desenvolvedores para codificação, enquanto o modelo Flash recebe melhorias em eficiência e desempenho. Novas funcionalidades, como o modo experimental Deep Think e saída de áudio nativo, prometem expandir as capacidades dos modelos. Essas mudanças reforçam a posição do Google no mercado de IA, oferecendo ferramentas mais robustas para empresas e programadores.

Os desenvolvedores agora têm acesso a recursos que facilitam a criação de aplicativos web interativos. O Gemini 2.5 Pro lidera rankings importantes, como o WebDev Arena, e se destaca em benchmarks de aprendizado. A integração de ferramentas de segurança avançadas também garante maior proteção contra ameaças digitais.

As atualizações incluem:

  • Modo Deep Think para resolução de problemas complexos em matemática e codificação.
  • Saída de áudio nativo para diálogos mais naturais.
  • Melhorias no modelo Flash, com redução de 20-30% no uso de tokens.
  • Suporte a ferramentas de código aberto via protocolo MCP.

O Google planeja disponibilizar essas novidades em larga escala nas próximas semanas, com foco em atender às demandas de desenvolvedores e empresas.

Desempenho elevado do Gemini 2.5 Pro

O modelo Gemini 2.5 Pro foi atualizado para oferecer desempenho superior em aplicações de desenvolvimento web. Com um ELO de 1415 no WebDev Arena, ele supera concorrentes em tarefas de codificação. Sua janela de contexto de 1 milhão de tokens permite processar grandes volumes de dados, garantindo eficiência em projetos complexos.

Educadores também elogiam o modelo por sua integração com o LearnLM, uma tecnologia voltada para o aprendizado. Em testes comparativos, o Gemini 2.5 Pro foi preferido por especialistas em pedagogia, destacando-se em cinco princípios fundamentais de ciência do aprendizado. O modelo é capaz de adaptar respostas a diferentes cenários educacionais, oferecendo explicações claras e estruturadas.

A liderança do modelo se estende ao LMArena, um ranking que avalia preferências humanas em diversas dimensões. Sua capacidade de compreender vídeos e contextos longos também foi aprimorada, tornando-o uma ferramenta versátil para aplicações multimodais.

Deep Think redefine resolução de problemas

O modo experimental Deep Think, introduzido no Gemini 2.5 Pro, utiliza técnicas avançadas de raciocínio para abordar problemas complexos. Em benchmarks como o USAMO 2025, o modelo alcançou pontuações impressionantes em matemática avançada. No LiveCodeBench, voltado para codificação competitiva, o Deep Think obteve resultados superiores, com 84% de acertos no teste multimodal MMMU.

O Google está realizando avaliações adicionais de segurança antes de liberar o Deep Think para uso geral. Por enquanto, o recurso está disponível apenas para testadores confiáveis via API Gemini, permitindo feedback detalhado. A expectativa é que o modo melhore a capacidade do modelo de considerar múltiplas hipóteses antes de responder, garantindo maior precisão em tarefas técnicas.

Melhorias no Gemini 2.5 Flash

Projetado para eficiência e baixo custo, o Gemini 2.5 Flash recebeu atualizações que o tornam mais rápido e econômico. O modelo agora consome 20-30% menos tokens em avaliações, mantendo alto desempenho em benchmarks de raciocínio, multimodalidade e codificação.

Disponível para visualização no Google AI Studio e no aplicativo Gemini, o Flash será liberado para produção em larga escala no início de junho. Empresas que utilizam o Vertex AI também poderão acessar a versão atualizada, otimizada para aplicações corporativas.

As melhorias incluem:

  • Maior velocidade em tarefas de baixa latência.
  • Suporte aprimorado para contextos longos.
  • Melhor desempenho em benchmarks multimodais.
  • Redução significativa no consumo de recursos computacionais.

Áudio nativo transforma interações

A introdução de saída de áudio nativo no Gemini 2.5 Pro e Flash marca um avanço em experiências conversacionais. O Live API agora suporta diálogos audiovisuais, permitindo interações mais naturais. Os usuários podem personalizar o tom, sotaque e estilo da fala, como solicitar uma narração dramática para histórias.

O recurso Affective Dialogue detecta emoções na voz do usuário e ajusta respostas de forma apropriada. Já o Proactive Audio filtra conversas de fundo, garantindo que o modelo responda apenas quando necessário. A funcionalidade de texto-para-fala suporta 24 idiomas, com transições fluidas entre eles, e permite simular múltiplos falantes em um mesmo diálogo.

Segurança reforçada contra ameaças

A proteção contra ataques cibernéticos foi ampliada no Gemini 2.5. Novas salvaguardas reduzem riscos de injeções indiretas de prompts, um tipo de ameaça onde instruções maliciosas são inseridas em dados recuperados pelo modelo. Testes mostram que o Gemini 2.5 é a família de modelos mais segura do Google até o momento.

Empresas que utilizam o Vertex AI se beneficiam dessas melhorias, especialmente em aplicações que envolvem ferramentas externas. As atualizações garantem maior confiabilidade em cenários corporativos, onde a segurança de dados é prioridade.

Expansão do uso computacional

As capacidades de uso computacional do Project Mariner foram integradas à API Gemini e ao Vertex AI. Empresas como Automation Anywhere e UiPath estão explorando essas funcionalidades para desenvolver soluções automatizadas. O recurso permite que os modelos interajam com sistemas computacionais de forma mais direta, ampliando suas aplicações em automação e gerenciamento de tarefas.

O Google planeja liberar essas capacidades para desenvolvedores no próximo verão, incentivando experimentações em larga escala. A integração com ferramentas de terceiros também foi simplificada, facilitando a criação de fluxos de trabalho automatizados.

Resumos de pensamento para desenvolvedores

Os modelos Gemini 2.5 Pro e Flash agora oferecem resumos de pensamento, um recurso que organiza o raciocínio do modelo em formatos claros. Disponível na API Gemini e no Vertex AI, a funcionalidade apresenta cabeçalhos, detalhes-chave e informações sobre ações do modelo, como o uso de ferramentas externas.

Desenvolvedores relatam que os resumos facilitam a depuração de interações com o modelo. A estrutura clara ajuda a identificar erros e otimizar fluxos de trabalho, especialmente em projetos complexos.

Orçamentos de pensamento ampliam controle

Os orçamentos de pensamento, inicialmente lançados no Gemini 2.5 Flash, foram estendidos ao modelo Pro. A funcionalidade permite que desenvolvedores controlem o número de tokens usados pelo modelo para processar respostas, equilibrando latência e qualidade.

Em algumas aplicações, é possível desativar completamente as capacidades de pensamento, reduzindo custos em tarefas simples. O recurso estará disponível para uso estável em produção nas próximas semanas, atendendo às necessidades de empresas que buscam maior eficiência.

Suporte a ferramentas de código aberto

A integração com o protocolo MCP (Model Context Protocol) foi adicionada à API Gemini, facilitando o uso de ferramentas de código aberto. O suporte nativo no SDK permite que desenvolvedores conectem o Gemini a servidores MCP e outras soluções hospedadas, simplificando a criação de aplicações baseadas em agentes.

O Google também está explorando formas de expandir o suporte a ferramentas externas, com foco em melhorar a interoperabilidade. A iniciativa reflete o compromisso da empresa em atender às demandas da comunidade de desenvolvedores.

Disponibilidade ampliada para usuários

O Gemini 2.5 Flash já está disponível no aplicativo Gemini para todos os usuários. No início de junho, a versão atualizada será liberada no Google AI Studio para desenvolvedores e no Vertex AI para empresas. O Gemini 2.5 Pro seguirá o mesmo cronograma, com acesso geral previsto para as próximas semanas.

A expansão garante que mais usuários possam experimentar as novas funcionalidades, desde áudio nativo até o modo Deep Think. O Google continua coletando feedback para refinar os modelos antes do lançamento completo.

Feedback impulsiona inovações

A comunidade de desenvolvedores tem desempenhado um papel central nas atualizações do Gemini 2.5. O Google mantém canais abertos para receber sugestões, que influenciam diretamente o desenvolvimento de novos recursos. A empresa também investe em pesquisas fundamentais para expandir as capacidades dos modelos, com foco em eficiência e desempenho.

As equipes responsáveis pelo Gemini trabalham em colaboração com especialistas em segurança e educação, garantindo que as atualizações atendam a padrões elevados. Novas funcionalidades estão em desenvolvimento, com anúncios previstos para os próximos meses.

Veja Também