最新新闻 (CN)

人工智能将音频转换为手机上的结构化文本,这并不是什么新鲜事

Nothing phone 3
照片: Nothing phone 3 - Reprodução Youtube

智能手机制造商Nothing已开始为其最新设备发布基于人工智能的新工具。这项前所未有的功能有望改变用户在小屏幕上打字的交互方式。新功能首先通过操作系统更新出现在 Phone (3) 型号上。

该技术称为“基本语音”,可将语音命令转换为可立即发送的结构化文本。该系统与设备上安装的应用程序以集成方式工作。与传统听写不同的是,该机制可以过滤语言缺陷并自动组织句子。该公司计划在未来几周内将该功能扩展到其他产品线。

没什么电话
没有电话 – 照片:复制品

人工智能如何将音频转化为干净的文本

Essential Voice 的运作是 Essential Space 创新方案的一部分。该平台使用Gemini 3 Flash语言模型来处理手机麦克风捕获的信息。当用户说话时,系统会先了解消息的一般上下文,然后再将单词转录到屏幕上。人类语言中常见的犹豫表情在最终结果中消失了。

制造商的核心目标是使语音通信成为可行且专业的替代方案。一个人在街上行走时可以口述一封很长的电子邮件。该软件应用正确的语法规则并插入适当的标点符号,而不需要特定的命令。在某些情况下,系统本身会将内容格式化为有组织的段落。

激活系统有两种简单直接的方式。用户可以按住物理基本键或点击虚拟键盘底角的专用图标。一旦该人停止说话,录音就会结束。处理后的文本立即出现在打开的应用程序的输入字段中。

该品牌设备的更新时间表

资源逐步释放,保证操作系统的稳定性。 Nothing Phone (3) 用户现在可以通过设备的设置菜单下载新功能。安装包的内部版本号为 Metroid-B4.1-260408-​​1909-IND。下载并重新启动设备后,该工具即可立即使用。

该品牌近期产品组合中的其他设备也明确了接收该技术的日期。 Phone (4a) Pro 型号计划于 2026 年 4 月底更新。Standard Phone (4a) 用户需要等到 5 月初。该公司没有提供有关与前几代智能手机的兼容性的信息。

软件更新还为 Nothing OS 界面带来了其他小改进。 Glyph 后照明系统的调整随主套件一起提供。然而,该版本的主要亮点仍然集中在新语音工具所产生的生产力上。

该工具在日常使用中的主要优点

制造商的官方文档详细介绍了新转录技术中内置的一系列功能。该机制旨在消除在触摸屏上频繁手动校正所浪费的时间。

  • 原生支持一百多种语言,具有自动语音检测系统。
  • 将捕获的音频同步翻译成外语,无需使用辅助应用程序。
  • 创建自定义语音快捷方式来填写表格或插入重复链接。
  • 智能结构化能够将连续听写转换为任务列表或特定笔记。
  • 普遍适用于任何具有文本输入字段的第三方应用程序。

这些功能使该工具与常见的虚拟助手处于不同的类别。重点仍然严格放在生产力和生成高度准确的书面内容上。

数据隐私和处理要求

系统架构需要持续的互联网连接才能正常运行。大量的人工智能处理发生在云中的服务器上,而不是手机的本地硬件上。如果无法访问移动网络或 Wi-Fi,智能听写按钮将保持不活动状态。转录速度直接取决于使用时可用信号的质量。

信息安全问题在项目开发过程中受到特别关注。无法保证转换后数据库中不会保留任何音频文件。声音传输到云端,经过 Gemini 模型解码,并以文本形式返回智能手机。整个过程只需几分之一秒即可完成。

该设备的麦克风大部分时间保持关闭状态。仅当用户手动触发命令时才开始主动监听。这种方法可以避免不必要的电池消耗,并防止在私人环境中意外捕获对话。

与传统键盘的实际差异

传统的虚拟键盘对麦克风捕获的所有内容进行文字转录。如果该人结巴或重复一个单词,错误将以完全相同的方式显示在屏幕上。 Essential Voice 通过充当实时校对者打破了这种模式。该算法理解句子的意图并提供完美的结果。

测试了初始版本的技术专家报告说,对进一步版本的需求大幅减少。文本输出自然具有更加正式和直接的语气。这一功能非常有利于企业文档、专业电子邮件和工作报告的撰写。当说话者在安静的环境中清晰地发音时,其精确度令人印象深刻。即使有轻微的背景噪音,人工智能也可以识别上下文。

然而,过于正式可能需要在日常交流的特定环境中进行调整。如果系统删除所有俚语和自然停顿,那么在消息应用程序上与家人轻松交谈可能听起来很不自然。制造商认识到算法的这种行为特征。公司工程师建议未来的软件更新可能包括手动语气调整,以使书写适应不同类型的社交互动。

↓ Continue lendo ↓