谷歌改变了Gemini Live应用程序中的语音系统并修改了地区口音的节奏
谷歌虚拟助手的用户开始报告实时交互过程中音频设置严重不稳定。修改直接影响用户体验,改变应用程序中所选选项的基本特征。
问题主要表现在说话的节奏、回答的语气和地方口音的一致性上。这些变化的发生是不可预测的,改变了人工智能系统在连续对话过程中的通信模式。
在公司语言模型最近更新后,这些缺陷变得明显。设置中提供的音频样本与实际再现的声音之间的差异已成为专注于移动设备的技术论坛上投诉的主要目标。
声音不一致和用户体验
被称为 Capella 的语音选项具有英国女性口音,呈现出自推出以来最明显的扭曲。消费者注意到,在最初的几个命令之后,音频的原始个性很快就消失了。
在长时间的对话中,系统很难维持个人选择的区域模式。助理的反应开始在澳大利亚口音和更中性的美式英语之间自动交替,为那些依赖该工具完成日常任务或学习的人带来支离破碎且令人困惑的听力体验。
该应用程序的行为表明,在尝试维持新版本人工智能模型所需的复杂语音调制时,实时处理面临瓶颈。当用户强制重启软件时,原始口音会恢复,但此修复仅具有暂时效果。经过几分钟的连续交互后,语音又变回混合版本,这表明语音合成系统无法在需要更多上下文处理和长时间响应的会话中保持稳定性。
- 在复杂的反应中,语速会大大降低。
- 原来的高音在使用过程中明显减弱。
- 不同的口音无意中混合在同一个句子中。
- 重新启动应用程序只能解决该问题。
扩展会话中的音频伪影
除了声音特征的变化之外,助手在再现响应过程中还开始出现不需要的噪音。当系统处理和传递所请求的信息时,会偶尔出现声音伪像,例如爆裂声、小爆裂声和背景嘶嘶声。
这些声音干扰与口音的变化没有直接关系,但它们会加剧服务质量下降的感觉。噪音的频率根据激活的语音选项和用于访问平台的设备而有很大差异。
不同平台的性能差异
实际测试表明,音频稳定性很大程度上取决于使用环境和硬件环境。需要简短响应的快速、中肯的命令很少会引发消费者报告的节奏差距或口音混合。
该助手与 Android Auto 等汽车系统的集成呈现出显着卓越的行为。在这些环境中,即使在需要较长处理时间的交互中,所选语音的原始特征也能得到更有效的保留。
这种性能差异表明移动应用程序的资源管理可能会影响音频渲染。智能手机上的数据压缩或内存分配似乎直接干扰模型保持声音保真度的能力。
提供定制选项和调整
助手的设置面板提供了多种声音配置文件目录以供定制。该公司的目标是让每个人都能找到一种语气、节奏和口音,使与机器的互动更加自然和愉快。
配置文件范围从更严肃和正式的音色到更高音调和轻松的选择。只需通过主菜单即可进行选择,其中会播放简短的音频样本以帮助消费者进行选择。
鉴于最近出现的问题,许多用户采取了在这些配置文件之间不断切换的策略,试图找到一个不易失败的选项。然而,语音切换只能作为系统不稳定的临时解决方法。
问题的根源仍然与软件实时处理自然语言的方式有关。公司服务器上的持续更新会影响目录中所有可用选项的行为,无论选择何种语气。
人工智能更新的影响
音频行为的不良变化与 Google 语言模型新版本的实施时期相吻合,特别是向注重速度的架构(例如 Flash Live 版本)的过渡。这些更新的主要目标是减少用户问题和机器响应之间的延迟时间,使对话更加流畅,更接近真实的人类对话。
然而,速度增益的优化似乎在语音合成的渲染中产生了副作用。当优先考虑生成文本的快速传递时,音频系统可能会以碎片的方式接收数据包,这可以解释节奏的损失、高音调的降低以及在很长的段落中无法维持复杂的地区口音。
可访问性和对一致标准的依赖
合成声音再现的一致性超出了审美偏好的问题,直接影响数字可访问性领域。有视觉障碍、阅读困难或特定神经系统疾病的个人通常依靠虚拟助手来浏览互联网、阅读文档和组织日常生活。对于这些受众来说,熟悉所选声音的语气、速度和清晰度对于有效理解信息至关重要。当系统突然改变节奏、插入噪音或改变句子中间的重音时,解释消息所需的认知负荷会大大增加。这种违反预期的情况将一个有用的工具变成了挫败感的根源,突显了科技公司在向公众发布人工智能更新之前,迫切需要实施更严格的测试程序,重点关注音频稳定性。
连续定位和监控
迄今为止,该软件开发商尚未发布正式声明,详细说明最终纠正这些声音异常的时间表。技术社区将继续监控应用程序的行为,并将每个新的小静默更新推送到设备。
自然语言处理的演变
实时语音合成背后的工程是当今机器学习领域面临的最大挑战之一。系统需要解释生成的文本,根据上下文应用正确的语调,并立即渲染音频。
尽管目前在节奏和口音方面存在缺陷,但实时对话技术仍在快速发展。对压缩和音频处理算法的调整最终应该可以稳定所有移动平台上自定义语音的性能。
Veja Tambem em News (CN)
扎克·克雷格的新《生化危机》忽略了游戏,而是专注于一个前所未有的故事和新角色
苹果加速 iPhone 17e 生产并开发配备双摄像头系统的新款 Air 机型
Epic Games 平台向 PC 用户免费发布 12 款高预算游戏
PlayStation 5 Pro 降价加速数字零售销售并消除全球库存
苹果纪念项目测试2027年1.1毫米边缘曲面屏手机
苹果新系统更新优化 iPhone 用户的紧急任务管理
新款便携式 PlayStation 的硬件细节泄露,其图形性能优于 Xbox Series S
Oppo 正式在全球推出 Find X9 Ultra,配备哈苏镜头和强劲电池
蒂姆·库克 (Tim Cook) 展示新款 iPhone 和 iPod 原型机,庆祝苹果公司成立 50 周年
新版可折叠智能手机为冬奥会参赛者带来金牌
三星更新 QuickStar 模块并扩展 One UI 8.5 界面中面板的视觉控制