谷歌周四宣布 Gemini 3.1 Flash Live 是迄今为止最高质量的音频和语音模型。此版本对 Gemini Live 和 Search Live 进行了许多重大改进。该模型现在可以通过 Google AI Studio 中的 Gemini Live API 进行预览。与之前的版本相比,它的延迟更低,并且在识别音调和节奏等声学细微差别方面更有效。
开发人员可以立即测试新模型,以构建具有实时多模式对话的应用程序。 Gemini 3.1 Flash Live 可以更准确地过滤背景噪音,并可以在交通或电视等环境声音中更好地辨别相关语音。此外,该系统支持90多种语言,扩大了实时交互的范围。
- 提高对音高和节奏等声学细微差别的识别
- 减少实时对话的延迟
- 更有效过滤背景噪音和环境声音
- 支持90多种语言的多模态交互
音频模型的技术改进
新模型显着提高了实时对话期间触发外部工具的能力。它还可以更好地跟进复杂的指令,即使对话发生意外变化,也可以使座席保持在操作限制范围内。这些变化导致更可靠、更自然的响应。
在适用于 Android 和 iOS 设备的 Gemini Live 中,Flash Live 3.1 可提供更快的响应和更少的停顿。系统可以比前一次跟踪两次对话的推理。 This allows for longer brainstorming sessions without losing your train of thought.
Gemini Live 动态调整响应的长度和语气,以适应当前的情况。用户表示,日常使用过程中的交互更加顺畅,干扰也更少。与新模型的集成有助于提供更加一致的整体体验。
Search Live 的全球扩张
Google 使用 Gemini 3.1 Flash Live 在全球 200 多个国家/地区推出 Search Live。此次扩展涵盖了目前支持 AI 模式的所有语言和地区。该功能允许与 Google 搜索进行互动对话,包括通过 Google Lens 进行音频和视频。
用户现在可以在不同地区更准确地执行实时对话搜索。系统在不同环境下更高效地处理多模态查询。这种可用性扩大了全球范围内对语音信息的访问。
Search Live 直接受益于语音识别的改进和延迟的减少。通过搜索进行的对话变得更加自然和情境化。音频和视频集成促进了实际日常场景中的交互。

有关语言和多模式支持的详细信息
支持 90 多种语言,可实现高质量的实时多模式对话。该模型更好地处理了发音和口音的地区差异。这使得 Gemini Live 更容易被不同国家的用户使用。
开发人员获得工具来根据新模型创建个性化体验。该 API 可以轻松集成到需要丰富语音交互的应用程序中。对低延迟的关注有助于保持对话自然流畅。
日常使用中的实际应用
在日常生活中,新型号的Gemini Live能够更快地响应复杂的命令和问题。系统可以更长时间地维护上下文,而无需重新启动推理。用户可以在长时间的会议中不断探索想法。
滤除环境噪音的能力可提高在繁忙地点或有背景声音时的性能。在街道或有电视的房间等环境中的对话变得更加清晰。动态调整语气和响应持续时间以适应交互风格。
与外部工具集成的进步
改进后的模型在对话过程中更有效地触发外部工具。即使在分支对话框中,它也能更一致地遵循系统指令。 This stability contributes to more predictable results in practical applications.
开发人员和最终用户受益于更强大的交互。 Gemini Live 成为执行涉及多个步骤的任务的更可靠的工具。先进的音频和扩展推理功能的结合扩展了使用的可能性。
谷歌继续投资音频模型,使人工智能交互更加自然。 Gemini 3.1 Flash Live的发布代表了朝这个方向迈出的重要一步。 Android和iOS用户可以直接在Gemini Live应用程序中体验新功能。
Gemini生态系统相关更新
该公告包括对 Android 上 Gemini Live 浮动面板的补充改进。这些更改旨在促进快速访问语音功能。这组更新强化了对高级对话体验的承诺。
Search Live 现在通过集成的音频和视频功能吸引了更广泛的受众。全球扩张使交互式语音搜索的访问变得民主化。不同地区的用户获得更强大的实时查询工具。
Gemini 3.1 Flash Live 标志着 Google 型号音频和语音质量的显着进步。延迟、噪声过滤和指令跟踪方面的改进提高了实时交互的标准。 Preview release allows developers to explore new applications now.