最新ニュース (JA)

Google、Android でのディクテーションを改善するために、Gemini Intelligence を使用して Gboard で Rambler システムをテスト

Gemini
Gemini - mundissima/ Shutterstock.com

Google は、仮想キーボードの大幅なアップデートにより、モバイル デバイス エコシステム向けの新しい人工知能機能の実装を進めています。同社は、スマートフォンでの音声ディクテーション エクスペリエンスを完全に再構築するように設計されたシステムである Gemini Intelligence を使用して、Gboard への Rambler ツールの導入を準備しています。この新機能は、Android オペレーティング システム用のアプリケーションの最新バージョンの内部コードで特定されました。

このテクノロジーの開発は、ユーザーが話した自然言語をデバイスが処理する方法の変遷を示しています。新しいメカニズムは、単に単語を文字通りに転写するのではなく、リアルタイムの校正機能として機能します。このツールは、スピーチの文脈を理解し、アイデアを整理し、フォーマットされた最終テキストを提供し、即興の口頭コミュニケーションによくある障害を排除します。

リバース エンジニアリングにより、Android システム上で機能がどのように動作するかを明らかにします

この機能の発見は、キーボードのインストール ファイルの詳細な技術分析を通じて行われました。 Android Authority ポータルの専門家は、アプリケーションのデータ パッケージに対してリバース エンジニアリング プロセスを実行し、隠しインターフェイスをアクティブ化することに成功しました。テストの結果、音声設定メニューには、高度なオーディオ処理を有効にするために必要なコマンド スイッチがすでに含まれていることがわかりました。

手順中に明らかになった内部画面には、人工知能を制御するための特定のチェックボックスが表示されます。コード構造は、Google がツールを機能させるためのハイブリッド アーキテクチャを開発したことを示唆しています。音声情報の処理の一部はデバイス自体でローカルに行われるため、会社のサーバーへの常時接続への依存が軽減され、入力時の応答速度が向上します。

実質的に完成したユーザー インターフェイスの存在は、ソフトウェア開発が進んだ段階にあることを示しています。ソフトウェア エンジニアは通常、内部テスト段階で安定性が許容レベルに達した場合にのみ、このコードをアプリケーションの公開バージョンに挿入します。この実質的な事前情報は、同社の更新スケジュールに従って、一般向けに正式に配布されるのが今後数カ月以内に行われることを示唆している。

文脈に応じた解釈機能により音声を構造化テキストに変換

Rambler システムの主な差別化点は、画面上のテキストを統合する前に思考ブロック全体を解釈できる機能にあります。従来の文字起こしは単語ごとの認識モデルに基づいて動作するため、ユーザーが立ち止まって考えたときに支離滅裂な文章が生成されることがよくあります。 Gemini Intelligence を備えた Gboard の新しいテクノロジーは、推論が完了するのを待って適切な書式設定を適用します。

人が話し続けると、自然言語プロセッサが一連の自動修正を実行します。このメカニズムは目に見えない形で機能し、最終メッセージが明確で文法的に正しいことを保証します。主なリアルタイム編集機能には次のものがあります。

  • 自発的な発話によく見られる、音声のためらい、どもり、音節の繰り返しを即座に除去します。
  • 背景ノイズをフィルタリングし、文間の長い無音の一時停止を除外します。
  • イントネーションとコンテキストに基づいて、カンマや疑問符を含む適切な句読点を自動的に適用します。
  • 元の意味を変更せずにテキストを文法規範に合わせるための口頭および名目的の一致の調整。
  • メッセージ受信者が素早く読みやすくするために、複雑な文を構文的に再構築します。

テキストへの高レベルの介入にもかかわらず、アルゴリズムはユーザーの声のアイデンティティを維持するように訓練されました。このシステムは、スラング、地域的な表現、個人の語彙からの特定の用語の使用を維持します。人工知能は、書かれた形式での理解を妨げる言語の欠陥を排除することだけに重点を置き、読む人にとって自然に聞こえる結果を提供します。

ネイティブ アプリケーションでの人工知能を拡張する戦略

Rambler の仮想キーボードへの統合は、生成ツールを日常の製品に組み込むという Google の広範な戦略を反映しています。 Gemini Intelligence を搭載した Gboard は、同社と世界中の何十億ものアクティブ ユーザーとの間の重要なタッチポイントを表します。キーボードはスマートフォンで最も使用されるアプリケーションであり、ソーシャル ネットワーク、メッセンジャー、ブラウザにテキストを入力するための橋渡しとして機能します。

音声ツールの再構築に関する最初の発表は、今年上半期の同社の技術カンファレンス中に行われた。当時、幹部らは、人々が毎日のコンテンツを作成できるようにする、よりプロアクティブなモバイル エコシステムのビジョンを提示しました。公式キーボード上でのこのプロジェクトの具体化は、主要な言語モデルへのアクセスを普及させるという同社の取り組みを示しています。

この動きはまた、競争の激しいモバイル オペレーティング システム市場において強力な地位を確立します。 Google は、優れたディクテーション機能をネイティブかつ無料で提供することで、Apple やアジアのスマートフォン メーカーが開発した競合ソリューションに対する障壁を作り出しています。企業環境や個人環境で高速通信を必要とする消費者にとって、音声トランスクリプションの品質は決定要因となっています。

配信スケジュールと Pixel ライン デバイスへの影響

高度な AI ベースの機能をリリースするには、厳密なインフラストラクチャ計画とハードウェアの互換性が必要です。テクノロジー市場アナリストらは、RamblerシステムはGoogleの歴史的な発売パターンに従うべきだと指摘している。 Pixel ラインのスマートフォンが最初に完全なアップデートを受け取り、大規模な検証プラットフォームとして機能すると期待されています。

同社自身が開発したデバイスには、Gemini Intelligence モデルの計算需要に対処するために最適化されたプロセッサが搭載されています。このハードウェアとソフトウェアの統合により、より優れたエネルギー効率とより低い遅延でローカル音声処理を行うことができます。初期の独占期間とパフォーマンス調整の後、このツールは Android システムを実行する他のブランドのデバイス向けに段階的にリリースされるはずです。

新しいテクノロジーが大量に採用されるかどうかは、中間デバイスがアルゴリズムに必要な処理負荷をサポートできるかどうかにかかっています。 Googleは、人工知能の軽量バージョンが適度な技術仕様の携帯電話で動作できるように、言語モデルの最適化に取り組んでいる。この機能をキーボードの世界的なユーザー ベースに拡張することで、モバイル通信におけるアクセシビリティと生産性の基準が再定義されることになります。

To Top