News (JP)

Google、Gemini Live アプリケーションの音声システムを変更し、地域のアクセントのリズムを変更

著者 Redação Mix Vale • 2026年04月05日 • 1 min de leitura

WhatsApp Twitter Facebook Googleでフォロー E-mail

写真: Gemini - Primakov / Shutterstock.com

Google の仮想アシスタントのユーザーは、リアルタイムインタラクション中に音声設定が著しく不安定になると報告し始めました。変更はユーザーエクスペリエンスに直接影響し、アプリケーションで選択されたオプションの基本的な特性を変更します。

この問題は、主に話し方のリズム、応答の調子、地域のアクセントの一貫性に現れます。これらの変化は予期せずに発生し、継続的な対話中の人工知能システムの通信パターンを変化させます。

ジェミニ — 双子座 – mundissima/ Shutterstock.com

この欠陥は、同社の言語モデルに最近のアップデートが適用された後に明らかになりました。設定で提供されるオーディオサンプルと実際に再生されるサウンドとの間の不一致は、モバイルデバイスに焦点を当てたテクノロジーフォーラムでの苦情の主な対象となっています。

音の矛盾とユーザーエクスペリエンス

イギリス人女性のアクセントを特徴とするカペラとして知られる音声オプションは、発売以来最も明らかな歪みを示しています。消費者は、最初の数回のコマンドの後、オーディオの本来の個性がすぐに失われることに気づきます。

長時間の会話中、システムは個人が選択した地域パターンを維持することが困難であることを示します。アシスタントの応答は、オーストラリアのアクセントと、より中立的なアメリカ英語のバリエーションの間で自律的に切り替わり始め、日常業務や勉強でツールに依存している人々にとって、断片的で混乱を招くリスニング体験を生み出します。

アプリケーションの動作は、人工知能モデルの新しいバージョンに必要な複雑な音声変調を維持しようとするときに、リアルタイム処理がボトルネックに直面していることを示唆しています。ユーザーがソフトウェアを強制的に再起動すると、元のアクセントが復元されますが、この修正は一時的な効果しかありません。数分間の継続的な対話の後、音声はハイブリッドバージョンに戻ります。これは、音声合成システムが、より多くのコンテキスト処理と長い応答を必要とするセッションで安定性を維持できないことを示しています。

複雑な応答では、話す速度が大幅に低下します。
元の高音は使用中に著しく減少します。
同じ文章の中に、意図せず異なるアクセントが混在してしまいます。
アプリケーションの再起動は、問題の回避策を提供するだけです。

拡張セッションでのオーディオアーティファクト

音声のアイデンティティの変化に加えて、アシスタントは応答の再生中に不要なノイズを提示し始めました。システムが要求された情報を処理して配信するときに、パチパチ音、小さなポップ音、背景のヒスノイズなどのサウンドアーティファクトが散発的に発生します。

これらの音響干渉はアクセントの変化と直接的な関係はありませんが、サービス品質の低下に対する認識を悪化させます。ノイズの周波数は、有効化された音声オプションとプラットフォームへのアクセスに使用されるデバイスによって大きく異なります。

プラットフォームによるパフォーマンスの違い

実際のテストでは、オーディオの安定性が使用状況とハードウェア環境に大きく依存することが実証されています。短い応答を必要とする迅速で要点を絞ったコマンドは、消費者から報告されるリズムのギャップやアクセントのブレンドを引き起こすことはほとんどありません。

Android Auto などの自動車システムとのアシスタントの統合は、特に優れた動作を示します。これらの環境では、より長い処理時間を必要とするインタラクションであっても、選択した音声の元の特性がより効果的に保存されます。

このパフォーマンスの違いは、モバイルアプリのリソース管理がオーディオレンダリングに影響を与えている可能性があることを示しています。スマートフォンでのデータ圧縮やメモリ割り当ては、ボーカルの忠実度を維持するモデルの能力に直接干渉しているようです。

利用可能なカスタマイズオプションと調整

アシスタントの設定パネルには、カスタマイズ用のボーカルプロファイルの多様なカタログが用意されています。同社の目標は、各個人がマシンとの対話をより自然で楽しいものにするトーン、リズム、アクセントを見つけられるようにすることです。

プロファイルは、より本格的でフォーマルな音色から、より高音でリラックスしたオプションまで多岐にわたります。選択はメインメニューから簡単に行うことができ、消費者の選択を支援するために短い音声サンプルが再生されます。

最近の問題を考慮して、多くのユーザーは、障害の影響を受けにくいオプションを見つけるために、これらのプロファイルを常に切り替える戦略を採用しています。ただし、音声切り替えは、システムが不安定になった場合の一時的な回避策としてのみ機能します。

問題の根本は、ソフトウェアが自然言語をリアルタイムで処理する方法に依然として関係しています。会社のサーバーの継続的な更新は、選択したトーンに関係なく、カタログで利用可能なすべてのオプションの動作に影響を与えます。

人工知能のアップデートの影響

オーディオの動作における望ましくない変更は、Google の言語モデルの新しいバージョンの実装時期、特に Flash Live バージョンなどの速度重視のアーキテクチャへの移行時期と一致しています。これらのアップデートの主な目的は、ユーザーの質問とマシンの応答の間の待ち時間を短縮し、対話をより流動的にし、実際の人間の会話に近づけることです。

ただし、速度向上のための最適化により、音声合成のレンダリングに副作用が発生したようです。生成されたテキストの高速配信を優先する場合、オーディオシステムは断片化された方法でデータパケットを受信する可能性があります。これにより、非常に長い段落でのリズムの損失、高音の低下、および複雑な局所的なアクセントを維持できなくなる可能性があります。

アクセシビリティと一貫した標準への依存

合成音声の再現における一貫性は、美的好みの問題を超えて、デジタルアクセシビリティの領域に直接影響します。視覚障害、読解困難、または特定の神経学的症状を持つ人は、インターネットを閲覧したり、文書を読んだり、日常業務を整理したりするために仮想アシスタントに依存することがよくあります。この聴衆にとって、情報を効果的に理解するには、選択した音声のトーン、スピード、明瞭さに精通していることが不可欠です。システムが文の途中でリズムを突然変更したり、ノイズを挿入したり、アクセントを変更したりすると、メッセージを解釈するために必要な認知負荷が大幅に増加します。この期待違反は、便利なツールをフラストレーションの源に変え、人工知能のアップデートを一般公開する前に、テクノロジー企業がオーディオの安定性に重点を置いたより厳格なテストルーチンを実装することが重要であることを浮き彫りにしています。