最新ニュース (JA)

何も新しい人工知能は携帯電話上で音声を構造化テキストに変換する

Nothing phone 3
写真: Nothing phone 3 - Reprodução Youtube

スマートフォンメーカーのNothingは、自社の最新デバイス向けに人工知能に基づく新しいツールの配布を開始した。この前例のない機能は、ユーザーが小さな画面で入力する方法を変えることを約束します。この新機能は、オペレーティング システムのアップデートを通じて電話 (3) モデルに初めて搭載されます。

Essential Voice と呼ばれるこの技術は、音声コマンドをすぐに送信できる構造化テキストに変換します。このシステムは、デバイスにインストールされているアプリケーションと統合して動作します。従来のディクテーションとは異なり、このメカニズムは言語の欠陥をフィルタリングし、自動的に文章を整理します。同社は今後数週間で他の製品ラインにも機能を拡張する予定だ。

何もない電話
電話は何もありません – 写真: 複製

人工知能が音声をクリーンテキストに変換する仕組み

Essential Voice の運用は、Essential Space として知られるイノベーションのパッケージの一部です。このプラットフォームは、Gemini 3 Flash 言語モデルを使用して、携帯電話のマイクによってキャプチャされた情報を処理します。ユーザーが話すと、システムは単語を画面に書き写す前に、メッセージの一般的なコンテキストを理解します。人間の音声によく見られるためらいの表現は、最終結果では消えます。

メーカーの主な目的は、音声コミュニケーションを実行可能なプロフェッショナルな代替手段にすることです。人は道を歩きながら長いメールを口述筆記することができます。ソフトウェアは、特定のコマンドを必要とせずに、正しい文法規則を適用し、適切な句読点を挿入します。場合によっては、システム自体がコンテンツを整理された段落にフォーマットします。

システムのアクティブ化は、2 つの簡単かつ直接的な方法で行われます。ユーザーは、物理的なエッセンシャル キーを押し続けるか、仮想キーボードの下隅にある専用のアイコンをタップします。相手が話すのをやめるとすぐに録音は終了します。処理されたテキストは、開いているアプリケーションの入力フィールドに即座に表示されます。

ブランドのデバイスの更新スケジュール

オペレーティング システムの安定性を確保するために、リソースは段階的に解放されます。 Nothing Phone (3) の所有者は、デバイスの設定メニューから新機能をダウンロードできるようになりました。インストール パッケージのビルド番号は Metroid-B4.1-260408-​​1909-IND です。デバイスをダウンロードして再起動すると、ツールはすぐに使用できるようになります。

同ブランドの最近のポートフォリオにある他のデバイスにも、このテクノロジーを採用する日付が定められています。 Phone (4a) Pro モデルは 2026 年 4 月末に更新される予定です。Standard Phone (4a) ユーザーは 5 月初旬まで待つ必要があります。同社は、前世代のスマートフォンとの互換性に関する情報を提供しなかった。

ソフトウェア アップデートでは、Nothing OS インターフェイスにその他の小さな改良も加えられています。 Glyph リア照明システムの調整はメイン パッケージに付属しています。ただし、このバージョンの主なハイライトは、依然として新しい音声ツールによって生み出される生産性に焦点を当てています。

日常使用におけるツールの主な利点

メーカーの公式ドキュメントには、新しい転写テクノロジーに組み込まれた一連の機能が詳しく説明されています。このメカニズムは、タッチ スクリーンでの頻繁な手動修正による時間の無駄をなくすことを目的としています。

  • 自動音声検出システムによる 100 以上の言語のネイティブ サポート。
  • 二次アプリケーションを使用せずに、キャプチャした音声を外国語に同時翻訳します。
  • フォームに記入したり、繰り返しリンクを挿入したりするためのカスタム音声ショートカットを作成します。
  • 継続的なディクテーションをタスク リストや特定のメモに変換できるインテリジェントな構造。
  • テキスト入力フィールドを持つサードパーティ製アプリケーションで広く機能します。

これらの機能により、このツールは一般的な仮想アシスタントとは異なるカテゴリに分類されます。引き続き、生産性と高精度の文書コンテンツの生成に重点を置きます。

データのプライバシーと処理要件

システム アーキテクチャが適切に機能するには、インターネットへの常時接続が必要です。高度な人工知能処理は、携帯電話のローカル ハードウェアではなく、クラウド内のサーバーで行われます。モバイル ネットワークまたは Wi-Fi にアクセスできない場合、スマート ディクテーション ボタンは非アクティブなままになります。転写速度は、使用時に利用可能な信号の品質に直接依存します。

プロジェクト開発中には、情報セキュリティの問題に特別な注意が払われました。変換後にオーディオ ファイルがデータベースに保存されないという保証はありません。音声はクラウドに送られ、Gemini モデルのデコードを受けてテキストとしてスマートフォンに返されます。プロセス全体が完了するまでにかかる時間はほんの数秒です。

デバイスのマイクはほとんどの場合オフのままです。アクティブ リスニングは、ユーザーがコマンドを手動でトリガーした場合にのみ開始されます。このアプローチにより、不必要なバッテリーの消費が回避され、プライベート環境での会話の誤ったキャプチャが防止されます。

従来のキーボードとの実質的な違い

従来の仮想キーボードは、マイクがキャプチャしたすべてのものを文字通りに転写します。その人がどもったり、単語を繰り返したりすると、まったく同じようにエラーが画面に表示されます。 Essential Voice は、リアルタイム校正者として機能することでこのパターンを打破します。アルゴリズムは文の意図を理解し、洗練された結果を提供します。

最初のバージョンをテストした技術専門家は、さらなるエディションの必要性が劇的に減少したと報告しました。テキスト出力は、自然によりフォーマルで直接的なトーンになります。この機能は、企業文書、仕事上の電子メール、作業報告書の作成に非常に役立ちます。静かな環境で話者がはっきりと言葉を発するときの正確さのレベルは印象的です。人工知能は、わずかな背景ノイズでも状況を識別できます。

ただし、過度に形式的な場合は、日常のコミュニケーションの特定の状況に適応する必要がある場合があります。メッセージング アプリでの家族とのリラックスした会話は、システムがスラングや自然な間をすべて削除すると、不自然に聞こえる可能性があります。メーカーは、アルゴリズムのこの動作特性を認識しています。同社のエンジニアは、将来のソフトウェア更新には、さまざまな種類の社会的交流に文章を適応させるための手動によるトーン調整が含まれる可能性があると示唆しています。

↓ Continue lendo ↓

こちらも参照 em 最新ニュース (JA)