人工知能 Google Gemini が Android 用 WhatsApp で複雑なコマンドの実行を開始

Aplicativo WhatsApp

Aplicativo WhatsApp - 写真: Worawee Meepian / Shutterstock.com

Google Gemini は、Android オペレーティング システムを搭載したデバイスで WhatsApp に直接接続できるようにするアップデートを受け取りました。この斬新さは使用のダイナミクスを変えます。この新機能は、人工知能を、単に質問に答えたりテキストを口述したりするだけでなく、複雑なタスクを実行できるエージェントに変換します。この機能により、携帯電話の画面上で異なるプラットフォームを切り替えることなく、メッセージの送信、他のアプリケーションからの情報の取得、コマンドの実行がリアルタイムで可能になります。

この変更は、ユーザーがスマートフォンを操作する方法の進歩を表し、異なるサービス間での流動的なコミュニケーションを確立します。この統合は技術的な橋渡しとして機能し、人工知能が Google Keep や Google マップなどのツールのデータにアクセスして、Meta のメッセンジャーで自動出荷を策定できるようになります。テクノロジー専門家は、この動きにより、古い音声アシスタントから自律型生産性エージェントへの移行が強化されると指摘しています。

構成にはオペレーティング システムでの手動アクティベーションが必要です

リソースの解放は、すべてのユーザーに対して自動的に行われるわけではありません。設定には、スマートフォンにインストールされている Google Gemini アプリケーションに直接アクセスする必要があります。同社は、この新機能は Android エコシステムのみで利用可能であり、iPhone 所有者はこの初期実装段階から除外されることを確認しました。人工知能の Web バージョンも、この特定の機能をサポートしていません。

アプリケーション間の通信を可能にするには、デバイスの所有者が環境設定メニュー内で手順を実行する必要があります。このプロセスにより、人工知能が会話のコンテンツにアクセスし、ユーザーに代わってメッセージを送信できるようにするために必要なアクセス許可がユーザーに付与されます。アクティベーション パスは、開発者によって確立された特定の順序に従います。

  • 携帯電話で Google Gemini アプリを開きます。
  • ユーザー プロファイル アイコンにアクセスし、[設定] タブに入ります。
  • Personal Intelligence というセクションに移動し、Connection Apps を選択します。
  • WhatsApp のオプションを見つけて、トグル ボタンをアクティブにします。

これらの手順を完了すると、仮想アシスタントはメッセンジャーと連携して動作するための承認をシステムから取得します。手動アクティベーションの要件は、サードパーティ ソフトウェアによる個人通信データの操作を許可する前に明示的な同意を必要とするオペレーティング システムのプライバシー ポリシーを反映しています。このセキュリティ層により、デバイス管理者の事前知識なしにツールが望ましくないアクションを実行することが防止されます。

旧Googleアシスタントとの構造の違い

新しいシステムの動作は、従来の音声コマンドで使用されるアーキテクチャとは大幅に異なります。従来の Google アシスタントはスマートフォン環境内で独立して動作していました。以前のツールは、ユーザーがカレンダーに登録されている名前を使用して特定の連絡先に電話をかけた後、メッセージを口述することに限定されていました。より広範なコンテキストや、さまざまなソースからの相互参照情報を理解する能力には、厳しい技術的制限がありました。

Google Gemini は継続的統合ロジックに基づいて動作します。人工知能は、携帯電話にインストールされている複数のアプリケーション間のリンクとして機能します。ソフトウェアは、メッセージング インターフェイスを動作可能な状態に保ちながら、カレンダー、メモ帳、地理位置情報サービスに同時にアクセスできます。この並列処理機能により、このツールは、複数のステップを必要とするワークフローを管理できるエージェントに変わり、すべてを 1 つの音声コマンドに統合します。

この変化の背後にある技術進化には、大規模な言語モデルの使用が含まれます。これらのアルゴリズムはユーザーの意図をより正確に処理し、注文を満たすためにどのアプリケーションを起動する必要があるかを特定します。その結果、より自然なユーザー エクスペリエンスが実現します。ウィンドウを開く、コピー、貼り付ける、閉じるといった一連の作業はマシンが引き継ぎ、最終結果のみをチャット画面に配信します。

ユースケースにはリアルタイムのデータ交差が含まれます

このテクノロジーを実際に応用すると、日常業務のダイナミクスが変わります。一般的なファイル共有シナリオでは、手動プロセスでは、WhatsApp からログアウトし、Google Keep を開いて目的のメモを見つけ、テキストをクリップボードにコピーし、メッセンジャーに戻ってコンテンツを貼り付ける必要があります。新しいアップデートでは、ユーザーは「Google Keep からピザのレシピを取得して、WhatsApp のマークに送信する」という文章を作成するだけで済みます。

こちらも参照

Google Gemini は一連のアクション全体をバックグラウンドで実行します。このツールは、要求されたドキュメントを取得し、テキスト メッセージを明確にフォーマットし、確認を 1 回タップするだけでメタ アプリでの送信を準備します。同じロジックがルートと地理的位置の共有にも当てはまります。旅行を計画しているときに、「自宅からデイトナビーチまでの距離を調べて、その詳細を WhatsApp で友人に送ってほしい」とリクエストする人もいるかもしれません。

この指示を受け取ると、アシスタントは直ちに Google マップ データベースを参照します。システムは最も効率的なルートを計算し、ルートに関する重要な情報を抽出し、テキストを読みやすい方法で構造化し、メッセンジャーで対応する会話ウィンドウを正確に開きます。根本的な違いは、単純な音声からテキストへのコンバーターから、プラットフォーム間で自律的にデータを操作する人工知能エージェントへの移行にあります。

Android Auto ダッシュボードに音声コマンド操作が追加されました

サービス間の統合は、Android Auto システムを通じて自動車環境にも拡張されます。ドライバーは、車両のメディア パネルでマイクを直接アクティブにしたり、ステアリング ホイールにある音声コマンド ボタンを押して自然な指示を出したりすることができます。仕事から戻る途中、ドライバーはシステムを起動して「WhatsApp で Sonal にメッセージを送って、約 10 分で到着するというメッセージを送ってください」と言うことができます。

搭載されたコンピューターは音声を瞬時に処理します。システムは、Android Auto のビジュアルおよびサウンド インターフェイスを通じて要求されたアクションを確認し、メッセージを送信します。手順全体は、ユーザーが道路から目をそらしたり、携帯電話の画面に触れたりする必要なく行われます。交通安全の維持はこの実装の主な焦点の 1 つであり、車の運転中にデバイスを手動で操作する必要がなくなります。

交通安全の専門家は、音声コマンドの改善により、運転中の気が散ることが大幅に減少すると評価しています。 Google Gemini の複雑な文を最初から理解できる能力は、古いアシスタントにありがちなフラストレーションを軽減します。以前のバージョンでは、コマンドを繰り返したり、ソフトウェアによって誤って解釈された単語を手動で修正したりする必要がよくありました。

エコシステムの拡張には他のサードパーティのプラットフォームも含まれます

Google Gemini のパーソナル インテリジェンス セクションで WhatsApp キーを有効にすると、アシスタントが単なる技術的な目新しさから、日常生活のための実用的なコマンド センターに変わります。同社はユーザーに対し、アプリケーションの拡張機能メニューを探索して、日常業務を自動化する新しい方法を発見することを推奨している。複雑な音声コマンドによるテキスト メッセージの送信は、より広範な接続プロジェクトの初期段階にすぎません。

Meta のメッセンジャーとの機能的パートナーシップに加えて、Google Gemini はサードパーティが開発した他のツールとの互換性の向上を実証しています。このシステムはすでに Spotify などのオーディオ ストリーミング プラットフォームとの統合を備えており、音楽やポッドキャストの再生を高度に制御できます。 Android オペレーティング システムのオープン アーキテクチャは、今後数か月以内に新しいアプリケーションが同様のプロトコルを採用する可能性が高いことを示唆しています。

モバイル デバイス上での人工知能エージェントの統合は、ソフトウェア設計パラダイムの変化を示しています。アプリケーションはもはや情報の孤立した島ではなく、相互接続されたエコシステムの歯車として機能し始めます。 Google は、Gemini のコンテキスト理解機能の向上に引き続き注力し、モバイル システムの世界的なユーザー ベースにより正確な応答とより迅速なアクションを提供することを目指しています。

こちらも参照