Nova inteligência artificial musical do Google gera faixas de três minutos no aplicativo Gemini

Maria

em 26 de março de 2026

O Google oficializou o lançamento do Lyria 3 Pro, a mais recente iteração de seu modelo fundacional focado na geração de áudio e música por inteligência artificial. A principal atualização desta versão reside na capacidade de processamento estendido, que salta do limite anterior de trinta segundos para a criação de faixas completas com até três minutos de duração. A ferramenta passa a ser distribuída de maneira gradual para os usuários que possuem assinaturas pagas no ecossistema do aplicativo Gemini, marcando uma nova fase na oferta de serviços generativos da gigante de tecnologia.

A expansão do tempo de áudio gerado resolve uma das principais limitações apontadas por testadores das versões anteriores. Com a nova arquitetura, o sistema consegue manter a coerência rítmica e melódica por um período prolongado, entregando composições que se assemelham à estrutura tradicional do mercado fonográfico e facilitando o trabalho de quem precisa de trilhas sonoras contínuas.

https://twitter.com/GeminiApp/status/2036836190431711500?ref_src=twsrc%5Etfw

As funcionalidades centrais do novo sistema incluem as seguintes características operacionais:
– Processamento de comandos de texto complexos para definição de gêneros e instrumentos específicos.
– Estruturação automática de seções musicais, compreendendo a divisão lógica entre versos, pontes e refrões.
– Geração simultânea de faixas instrumentais e vocais sintetizados com alta fidelidade acústica.
– Integração direta com plataformas de edição de vídeo e ambientes de desenvolvimento de software.

O acesso inicial prioriza contas premium para garantir a estabilidade dos servidores, visto que a renderização de áudio longo exige alto poder computacional. A empresa planeja monitorar o uso nestas primeiras semanas para calibrar a infraestrutura antes de possíveis expansões para outros níveis de usuários e desenvolvedores independentes.

Arquitetura de compreensão estrutural das composições

O desenvolvimento do Lyria 3 Pro exigiu uma reformulação na forma como a rede neural interpreta a teoria musical. Os engenheiros de software treinaram o modelo para entender a progressão de acordes e a manutenção do tempo, permitindo que os usuários digitem comandos detalhados sobre como a música deve evoluir do início ao fim.

Essa capacidade de compreensão estrutural significa que a inteligência artificial não apenas empilha sons aleatórios, mas constrói uma narrativa auditiva. Um produtor pode solicitar uma introdução acústica lenta que transiciona para uma batida eletrônica acelerada no segundo minuto, e o sistema calculará a transição de forma natural, sem quebras abruptas no andamento.

Expansão para desenvolvedores e plataformas de edição

Além do aplicativo voltado ao consumidor final, a tecnologia foi incorporada ao Google AI Studio e à API do Gemini. Essa abertura fornece aos programadores independentes e estúdios de software as ferramentas necessárias para criar aplicativos de terceiros que utilizem o motor de áudio do Lyria para gerar sons sob demanda em jogos ou plataformas interativas.

No ambiente corporativo, grandes empresas ganham acesso ao modelo por meio do Vertex AI, a plataforma de nuvem voltada para aprendizado de máquina. Isso facilita a automação de campanhas publicitárias em larga escala, onde marcas podem gerar trilhas sonoras exclusivas para milhares de vídeos promocionais sem depender de bancos de áudio tradicionais.

A integração se estende também ao Google Vids, o recém-anunciado aplicativo de criação de vídeos da empresa, e ao ProducerAI. Nesses ambientes, editores de vídeo conseguem digitar o clima desejado para uma cena e obter uma trilha perfeitamente sincronizada com a duração do corte, otimizando o fluxo de trabalho audiovisual.

Diretrizes de segurança e proteção de propriedade intelectual

A geração de áudio por inteligência artificial levanta debates constantes sobre direitos autorais, e a nova versão do sistema implementa barreiras técnicas para mitigar esses riscos. Os filtros de processamento de linguagem natural foram ajustados para bloquear tentativas de clonagem direta de vozes de cantores famosos ou a reprodução exata de melodias protegidas por copyright.

Quando um usuário insere o nome de um artista específico no comando de texto, o algoritmo é programado para interpretar a requisição apenas como uma referência de estilo ou gênero musical. O resultado gerado apresenta características daquela vertente, como o uso de sintetizadores oitentistas ou guitarras distorcidas, mas cria uma composição matematicamente inédita.

Para garantir a rastreabilidade do conteúdo sintético, todas as faixas exportadas pelo Lyria 3 Pro recebem a aplicação do SynthID. Trata-se de uma tecnologia de marca d’água invisível desenvolvida pela divisão DeepMind, que insere um código identificador diretamente nas ondas sonoras do arquivo gerado.

Essa marcação acústica é imperceptível ao ouvido humano e resiste a modificações severas, como compressão de arquivos MP3, alterações de velocidade ou adição de ruídos de fundo. Softwares de verificação podem ler esse código para confirmar que o áudio foi criado por algoritmos, promovendo a transparência em plataformas de distribuição de mídia.

Utilização prática no mercado de produção de conteúdo

A disponibilidade de faixas de três minutos altera a dinâmica de trabalho para criadores de conteúdo digital, como podcasters, streamers e administradores de canais de vídeo. Anteriormente, a limitação de trinta segundos obrigava esses profissionais a criar loops repetitivos que muitas vezes soavam artificiais em vídeos mais longos. Agora, é possível gerar uma trilha sonora completa com variações de intensidade que acompanham a narrativa de um documentário ou tutorial, eliminando os custos com licenciamento de músicas e o tempo gasto na busca por faixas adequadas em bibliotecas de áudio genéricas.

Para os profissionais da indústria fonográfica, a ferramenta atua como um assistente de ideação rápida. Músicos e compositores utilizam a geração de áudio para testar arranjos inusitados, misturando gêneros como jazz e heavy metal em questão de segundos para avaliar a viabilidade sonora. As faixas geradas servem como rascunhos ou bases instrumentais que posteriormente são regravadas com instrumentos reais e vocais humanos em estúdios profissionais. Essa abordagem híbrida acelera a fase de pré-produção, permitindo que os artistas explorem dezenas de conceitos musicais em uma única sessão de estúdio antes de decidirem o caminho final da composição.

Processamento avançado de dados acústicos em redes neurais

O salto tecnológico necessário para expandir a geração de áudio de trinta segundos para três minutos envolve a superação de gargalos significativos no processamento de dados acústicos. Diferente da geração de texto, onde cada palavra representa um token discreto, o áudio de alta qualidade exige a renderização de dezenas de milhares de amostras por segundo. Manter a consistência da afinação, o timbre dos instrumentos e a clareza dos vocais ao longo de cento e oitenta segundos requer uma rede neural capaz de reter um contexto de memória extremamente longo. Os pesquisadores do Google alcançaram esse feito otimizando a arquitetura de atenção do modelo, permitindo que a inteligência artificial processe a melodia exata que tocou no primeiro minuto para repeti-la de forma coerente no refrão final. Esse nível de precisão matemática na síntese sonora demonstra o amadurecimento dos modelos de difusão aplicados à música, estabelecendo parâmetros técnicos mais elevados para a concorrência no setor de inteligência artificial generativa e provando que a tecnologia pode lidar com formatos de mídia de longa duração com estabilidade comercial e qualidade de estúdio.

Implementação gradual e monitoramento de performance

A liberação do sistema ocorre sob um regime de cotas diárias de geração, vinculadas ao nível de assinatura de cada usuário no ecossistema da empresa. A equipe de engenharia mantém um monitoramento contínuo sobre a qualidade das faixas produzidas e a latência dos servidores, utilizando os dados operacionais destas primeiras semanas para refinar o algoritmo e planejar a expansão da capacidade de processamento para um público mais amplo nos próximos meses.

Eto imulo tuntun ti olupese dinku iye ti media oni-nọmba fun Yipada 2 lati May »

« Apple ၏စနစ်ဗားရှင်းအသစ်သည် ယာဉ်များအတွက် ဉာဏ်ရည်တုနှင့် အခမဲ့ဂီတကို ထုတ်ပေးသည်။

Tags: criação musicalGoogle GeminiInteligência ArtificialLyria 3 Protecnologia de áudio