更新后的 Google 工具在 Gemini 应用程序中创建三分钟的音乐作品

Lyria 3 Pro

Lyria 3 Pro - Divulgação

谷歌推出了 Lyria 3 Pro,这是其人工智能模型的更新版本,旨在生成音频和声音作品。该工具的主要技术变化包括增加每首曲目的时间限制,从上一代的三十秒增加到最多连续三分钟。新功能满足了内容创作者和数字制作者对更广泛、更完整的材料的需求。对于已付费订阅 Gemini 应用程序的用户来说,初始访问会逐渐进行。

轨道长度的进步伴随着模型架构的改进,模型架构现在可以更精确地处理文本命令来构建构图。该公司已将技术集成到其企业生态系统的不同方面,允许编辑专业人员和软件开发人员直接在其工作流程中使用人工智能。处理在专用服务器上进行,这保证了输入提示后几秒钟内即可交付具有人声、乐器和录音室质量的文件。

https://twitter.com/GeminiApp/status/2036836190431711500?ref_src=twsrc%5Etfw

扩展的音频处理和结构化功能

从三十秒到三分钟的转变代表了生成音频片段中计算的重大飞跃。 Lyria 3 Pro 设法在整个音轨长度上保持和声和节奏的连贯性,避免长时间生成时容易出现的失真或质量损失。系统分析用户的请求并逐层构建音乐,以同步方式组合节拍、背景旋律和合成声音。

用户可以通过详细的文本命令来控制歌曲的结构。该模型包含将乐曲分成传统块的具体说明,例如引子、主歌、桥梁和副歌。这种细分有助于根据项目的需要创建遵循商业或实验标准的曲目。人工智能会调整这些部分之间的过渡,使节奏的变化听起来很自然。

音乐制作人和测试人员报告说,该工具可以有效地响应有关音乐编排和流派的复杂请求。可以请求在同一曲目上混合不同风格,或者改变歌曲中特定时刻的乐器强度。该系统的自然语言处理将音乐理论中的技术术语转化为实际的声音结果,从而减少了创建草图或背景音轨所花费的时间。

与应用程序和服务生态系统集成

Lyria 3 Pro 分布在由 Google 维护的多个平台上。在消费市场,Gemini高级计划订户直接通过应用程序或浏览器访问创建界面。对于企业和开发领域,该公司已在 Google AI Studio 中并通过 Gemini API 发布了该模型。这种开放性允许程序员构建第三方应用程序,使用谷歌的音频引擎在其他界面中按需生成音乐。

大型企业和创意工作室可以通过该公司的云机器学习平台 Vertex AI 进行访问。此外,该模型已原生融入 Google Vids(专注于桌面的视频编辑应用程序)和 ProducerAI(音乐制作协作环境)中。这些软件中存在该工具,无需在外部音频库中搜索音轨。

该模型的多功能性服务于视听和数字娱乐市场的不同领域。快速生成结构化音频可以优化需要大量原始声音素材的项目的进度。

  • 为教程视频和企业视频博客创建独家配乐。
  • 为播客剧集开发小插曲和过渡音乐。
  • 为游戏领域生成效果和动态背景音乐。
  • 为数字广告活动大规模制作音频材料。

与已经建立的工作流程的集成展示了谷歌将其生成工具定位为实用工具的战略。营销人员和视频编辑可以输入场景所需的情绪,并获得与视觉材料完美同步的曲目。

安全机制和版权保护

音频生成技术的进步引发了有关版权和知识产权滥用的争论。为了降低这些风险,Google 在 Lyria 3 Pro 上实施了严格的安全过滤器。该系统会阻止克隆真实歌手声音的尝试,并阻止该模型直接复制受版权保护的音乐。当用户在命令中输入著名艺术家的名字时,人工智能只会将提及的内容解释为风格或流派,而不会模仿该人的声音身份。

该公司采取的另一项安全措施是将 SynthID 应用于平台生成的所有曲目。该技术将看不见、听不见的数字水印直接嵌入到文件的音频频谱中。该标记可以抵抗编辑、压缩或格式更改,从而允许验证软件识别材料的合成来源。该倡议旨在提高媒体消费的透明度,并打击涉及虚假音频的错误信息或欺诈行为。

安全检查在提示处理期间实时进行。如果系统检测到该请求违反了使用准则或试图规避版权保护,则立即停止生成。谷歌拥有致力于不断更新这些过滤器的团队,遵循不同国家当前的人工智能法规。

对数字内容创作市场的影响

Lyria 3 Pro 的开发涉及专业音乐家、音响工程师和制作人在模型训练阶段的参与。这种技术合作确保人工智能能够理解和声、和弦进行和混音的细微差别。实际结果是一个可以提供平衡音频文件的工具,其中人声不会与基本乐器错误地重叠。

完整的三分钟作品的出现改变了独立创作者的工作动力。社交网络上的视频频道和个人资料获得了制作自己曲目的自主权,从而降低了商业音乐的许可成本。该模型充当作曲助手,允许艺术家在使用真实乐器在录音室录制最终版本之前快速测试进行和安排。

谷歌根据用户生成的数据量和开发者社区的反馈,维持模型的迭代更新周期。音频处理能力的扩展巩固了公司在生成人工智能领域的基础设施,与其他专注于企业和最终消费者市场创意解决方案的平台直接竞争。

另见