Google представила Lyria 3 Pro — обновленную версию своей модели искусственного интеллекта, предназначенную для генерации аудио и звуковых композиций. Основное техническое изменение инструмента состоит в увеличении ограничения по времени для каждого трека, которое увеличилось с тридцати секунд в предыдущем поколении до трех непрерывных минут. Новая функция отвечает потребностям создателей контента и производителей цифровых материалов в более обширных и полных материалах. Первоначальный доступ происходит постепенно для пользователей, оформивших платную подписку на приложение Gemini.
Увеличение длины дорожек сопровождается улучшением архитектуры модели, которая теперь обрабатывает текстовые команды с большей точностью для структурирования композиций. Компания интегрировала технологии в различные аспекты своей корпоративной экосистемы, что позволяет специалистам по редактированию и разработчикам программного обеспечения использовать искусственный интеллект непосредственно в своих рабочих процессах. Обработка происходит на выделенных серверах, что гарантирует доставку файлов с вокалом, инструментами и студийным качеством в течение нескольких секунд после ввода подсказки.
https://twitter.com/GeminiApp/status/2036836190431711500?ref_src=twsrc%5Etfw
Расширенные возможности обработки и структурирования звука.
Переход от тридцати секунд к трем минутам представляет собой значительный вычислительный скачок в сегменте генеративного аудио. Lyria 3 Pro удается поддерживать гармоническую и ритмическую последовательность на протяжении всей длины трека, избегая искажений или потерь качества, которые обычно возникают при длительных поколениях. Система анализирует запрос пользователя и слой за слоем строит музыку, синхронно комбинируя ритмы, фоновые мелодии и синтетические голоса.
Пользователи могут контролировать структуру песни с помощью подробных текстовых команд. Модель содержит конкретные инструкции по разделению композиции на традиционные блоки, такие как вступление, куплеты, переходы и припевы. Такая сегментация облегчает создание треков, соответствующих коммерческим или экспериментальным стандартам, в зависимости от потребностей проекта. Искусственный интеллект регулирует переходы между этими частями так, чтобы смена ритма звучала для ваших ушей естественно.
Музыкальные продюсеры и бета-тестеры сообщили, что инструмент эффективно отвечает на сложные запросы о музыкальных аранжировках и жанрах. Можно запросить смешивание разных стилей в одном треке или изменить интенсивность инструментов в определенные моменты песни. Система обработки естественного языка переводит технические термины из теории музыки в практические звуковые результаты, сокращая время, затрачиваемое на создание эскизов или минусовок.
Интеграция с экосистемой приложений и сервисов
Lyria 3 Pro распространяется на нескольких платформах, поддерживаемых Google. На потребительском рынке подписчики расширенного плана Gemini получают доступ к интерфейсу создания непосредственно через приложение или браузер. Для корпоративного сектора и сектора разработки компания выпустила модель в Google AI Studio и через Gemini API. Такая открытость позволяет программистам создавать сторонние приложения, использующие аудиодвижок Google для создания музыки по запросу в других интерфейсах.
Крупные корпорации и творческие студии имеют доступ через Vertex AI, облачную платформу машинного обучения компании. Кроме того, модель была встроена в Google Vids, приложение для редактирования видео, ориентированное на настольные компьютеры, и ProducerAI, среду для совместной работы над созданием музыки. Наличие инструмента в этих программах избавляет от необходимости искать саундтреки во внешних аудиобанках.
Универсальность модели обслуживает различные ниши на рынке аудиовизуальных и цифровых развлечений. Быстрое создание структурированного звука оптимизирует график проектов, требующих большого объема оригинального звукового материала.
- Создание эксклюзивных саундтреков для обучающих видеороликов и корпоративных влогов.
- Разработка виньеток и переходной музыки для выпусков подкаста.
- Генерация эффектов и динамической фоновой музыки для игрового сектора.
- Масштабное производство аудиоматериалов для цифровых рекламных кампаний.
Интеграция с уже установленными рабочими процессами демонстрирует стратегию Google по позиционированию своих генеративных инструментов как практических утилит. Маркетологи и видеоредакторы могут задать нужное настроение сцене и получить трек, идеально подходящий к визуальному материалу.
Механизмы безопасности и защита авторских прав
Развитие технологий генерации звука вызывает споры об авторском праве и неправомерном использовании интеллектуальной собственности. Чтобы снизить эти риски, Google внедрил в Lyria 3 Pro строгие фильтры безопасности. Система блокирует попытки клонировать голоса реальных певцов и не позволяет модели создавать прямые копии музыки, защищенной авторским правом. Когда пользователь вводит в команду имя известного исполнителя, искусственный интеллект интерпретирует упоминание только как отсылку к стилю или жанру, не имитируя голосовую индивидуальность человека.
Еще одна мера безопасности, принятая компанией, — применение SynthID ко всем трекам, генерируемым платформой. Эта технология встраивает невидимый и неслышимый цифровой водяной знак непосредственно в звуковой спектр файла. Маркер устойчив к редактированию, сжатию или изменению формата, что позволяет программному обеспечению проверки определить синтетическое происхождение материала. Инициатива направлена на повышение прозрачности потребления средств массовой информации и борьбу с дезинформацией или мошенничеством, связанным с поддельным аудио.
Проверки безопасности происходят в режиме реального времени во время оперативной обработки. Если система обнаруживает, что запрос нарушает правила использования или пытается обойти защиту авторских прав, генерация немедленно прекращается. В Google есть команды, которые постоянно обновляют эти фильтры в соответствии с действующими правилами в отношении искусственного интеллекта в разных странах.
Влияние на рынок создания цифрового контента
В разработке Lyria 3 Pro на этапе обучения модели принимали участие профессиональные музыканты, звукорежиссеры и продюсеры. Благодаря этому техническому сотрудничеству искусственный интеллект понимал нюансы гармонии, последовательности аккордов и микширования. Практическим результатом является инструмент, который создает сбалансированные аудиофайлы, в которых вокал не перекрывается неправильно с базовыми инструментами.
Доступность полноценных трехминутных композиций меняет динамику творчества независимых творцов. Видеоканалы и профили в социальных сетях получают автономию для создания собственных треков, что снижает затраты на лицензирование коммерческой музыки. Модель действует как помощник по композиции, позволяя артистам быстро тестировать прогрессии и аранжировки перед записью окончательной версии в студии с использованием реальных инструментов.
Google поддерживает цикл итеративных обновлений модели на основе объема данных, генерируемых пользователями, и отзывов сообществ разработчиков. Расширение возможностей обработки звука консолидирует инфраструктуру компании в секторе генеративного искусственного интеллекта, напрямую конкурируя с другими платформами, ориентированными на креативные решения для корпоративного и конечного потребительского рынков.

