Trí tuệ nhân tạo mới không có gì biến âm thanh thành văn bản có cấu trúc trên điện thoại di động
Nhà sản xuất điện thoại thông minh Nothing đã bắt đầu phân phối một công cụ mới dựa trên trí tuệ nhân tạo cho các thiết bị mới nhất của mình. Tính năng chưa từng có hứa hẹn sẽ thay đổi cách người dùng tương tác với việc gõ phím trên màn hình nhỏ. Tính năng mới lần đầu tiên xuất hiện trên mẫu Điện thoại (3) thông qua bản cập nhật hệ điều hành.
Được gọi là Essential Voice, công nghệ này chuyển đổi lệnh thoại thành văn bản có cấu trúc sẵn sàng để gửi ngay lập tức. Hệ thống hoạt động tích hợp với các ứng dụng được cài đặt trên thiết bị. Không giống như cách đọc chính tả truyền thống, cơ chế này lọc các lỗi ngôn ngữ và tự động sắp xếp các câu. Công ty có kế hoạch mở rộng chức năng này sang các dòng sản phẩm khác trong vài tuần tới.

Trí tuệ nhân tạo biến âm thanh thành văn bản rõ ràng như thế nào
Hoạt động của Essential Voice là một phần trong gói cải tiến mang tên Essential Space. Nền tảng này sử dụng mô hình ngôn ngữ Gemini 3 Flash để xử lý thông tin được ghi lại bằng micrô của điện thoại di động. Khi người dùng nói, hệ thống sẽ hiểu ngữ cảnh chung của tin nhắn trước khi chuyển các từ đó lên màn hình. Những biểu hiện do dự phổ biến trong lời nói của con người biến mất trong kết quả cuối cùng.
Mục tiêu trọng tâm của nhà sản xuất là làm cho giao tiếp bằng giọng nói trở thành một giải pháp thay thế khả thi và chuyên nghiệp. Một người có thể viết một email dài khi đi bộ trên phố. Phần mềm áp dụng đúng các quy tắc ngữ pháp và chèn dấu câu thích hợp mà không cần đến các lệnh cụ thể. Trong một số trường hợp, hệ thống tự định dạng nội dung thành các đoạn có tổ chức.
Kích hoạt hệ thống diễn ra theo hai cách đơn giản và trực tiếp. Người dùng có thể nhấn và giữ phím Essential Key vật lý hoặc nhấn vào biểu tượng chuyên dụng nằm ở góc dưới cùng của bàn phím ảo. Quá trình ghi âm kết thúc ngay khi người đó ngừng nói. Văn bản được xử lý sẽ xuất hiện ngay lập tức trong trường gõ của ứng dụng đang mở.
Lịch trình cập nhật cho các thiết bị của thương hiệu
Tài nguyên được giải phóng dần dần để đảm bảo sự ổn định của hệ điều hành. Chủ sở hữu Nothing Phone (3) hiện có thể tải xuống tính năng mới thông qua menu cài đặt của thiết bị. Gói cài đặt mang số bản dựng Metroid-B4.1-260408-1909-IND. Sau khi tải xuống và khởi động lại thiết bị, công cụ sẽ có sẵn để sử dụng ngay.
Các thiết bị khác trong danh mục gần đây của thương hiệu cũng đã xác định ngày nhận công nghệ. Mẫu Điện thoại (4a) Pro dự kiến sẽ được cập nhật vào cuối tháng 4 năm 2026. Người dùng Điện thoại Tiêu chuẩn (4a) sẽ phải đợi đến đầu tháng 5. Công ty không cung cấp thông tin về khả năng tương thích với các thế hệ điện thoại thông minh trước đó.
Bản cập nhật phần mềm cũng mang đến những cải tiến nhỏ khác cho giao diện Nothing OS. Các điều chỉnh đối với hệ thống chiếu sáng phía sau Glyph đi kèm với gói chính. Tuy nhiên, điểm nổi bật chính của phiên bản vẫn tập trung vào năng suất do công cụ giọng nói mới tạo ra.
Ưu điểm chính của công cụ này trong sử dụng hàng ngày
Tài liệu chính thức của nhà sản xuất nêu chi tiết một loạt khả năng được tích hợp trong công nghệ sao chép mới. Cơ chế này nhằm loại bỏ thời gian lãng phí bằng việc thường xuyên chỉnh sửa thủ công trên màn hình cảm ứng.
- Hỗ trợ bản địa cho hơn một trăm ngôn ngữ với hệ thống phát hiện giọng nói tự động.
- Dịch đồng thời âm thanh thu được sang tiếng nước ngoài mà không cần sử dụng ứng dụng phụ.
- Tạo các phím tắt giọng nói tùy chỉnh để điền vào biểu mẫu hoặc chèn các liên kết định kỳ.
- Cấu trúc thông minh có khả năng chuyển đổi chính tả liên tục thành danh sách nhiệm vụ hoặc ghi chú cụ thể.
- Hoạt động phổ biến trong mọi ứng dụng của bên thứ ba có trường nhập văn bản.
Những tính năng này đặt công cụ này vào một danh mục khác với các trợ lý ảo thông thường. Trọng tâm vẫn tập trung vào năng suất và tạo ra nội dung bằng văn bản có độ chính xác cao.
Yêu cầu về quyền riêng tư và xử lý dữ liệu
Kiến trúc hệ thống yêu cầu kết nối internet liên tục để hoạt động bình thường. Quá trình xử lý trí tuệ nhân tạo nặng nề diễn ra trên các máy chủ trên đám mây chứ không phải trên phần cứng cục bộ của điện thoại. Nếu không có quyền truy cập vào mạng di động hoặc Wi-Fi, nút đọc chính tả thông minh sẽ không hoạt động. Tốc độ phiên mã trực tiếp phụ thuộc vào chất lượng tín hiệu có sẵn tại thời điểm sử dụng.
Vấn đề bảo mật thông tin nhận được sự quan tâm đặc biệt trong quá trình phát triển dự án. Không có gì đảm bảo rằng không có tệp âm thanh nào được lưu trữ trong cơ sở dữ liệu của họ sau khi chuyển đổi. Âm thanh truyền lên đám mây, trải qua quá trình giải mã mô hình Gemini và trả về dưới dạng văn bản trên điện thoại thông minh. Toàn bộ quá trình chỉ mất một phần giây để hoàn thành.
Micrô của thiết bị hầu như luôn tắt. Hoạt động nghe chỉ bắt đầu khi người dùng kích hoạt lệnh theo cách thủ công. Cách tiếp cận này tránh việc tiêu thụ pin không cần thiết và ngăn chặn việc vô tình ghi lại các cuộc hội thoại trong môi trường riêng tư.
Sự khác biệt thực tế so với bàn phím thông thường
Bàn phím ảo truyền thống thực hiện phiên âm theo nghĩa đen của mọi thứ mà micrô thu được. Nếu người đó nói lắp hoặc lặp lại một từ, lỗi sẽ xuất hiện trên màn hình theo cách tương tự. Essential Voice phá vỡ khuôn mẫu này bằng cách hoạt động như một người hiệu đính thời gian thực. Thuật toán hiểu ý định của câu và mang lại kết quả tinh tế.
Các chuyên gia công nghệ đã thử nghiệm phiên bản đầu tiên đã báo cáo rằng nhu cầu về các phiên bản tiếp theo đã giảm đáng kể. Đầu ra văn bản có giọng điệu trang trọng và trực tiếp hơn một cách tự nhiên. Tính năng này hỗ trợ rất nhiều cho việc viết tài liệu công ty, email chuyên nghiệp và báo cáo công việc. Mức độ chính xác rất ấn tượng khi người nói phát âm rõ ràng các từ trong môi trường im lặng. Trí tuệ nhân tạo có thể phân biệt bối cảnh ngay cả khi có tiếng ồn xung quanh nhỏ.
Tuy nhiên, hình thức quá mức có thể đòi hỏi sự thích ứng trong bối cảnh cụ thể của giao tiếp hàng ngày. Một cuộc trò chuyện thoải mái với các thành viên trong gia đình trên ứng dụng nhắn tin có thể nghe có vẻ giả tạo nếu hệ thống loại bỏ tất cả tiếng lóng và những khoảng dừng tự nhiên. Nhà sản xuất nhận ra đặc điểm hành vi này của thuật toán. Các kỹ sư của công ty gợi ý rằng các bản cập nhật phần mềm trong tương lai có thể bao gồm các điều chỉnh giọng điệu thủ công để điều chỉnh cách viết cho phù hợp với các loại tương tác xã hội khác nhau.
Xem Thêm em Tin Mới Nhất (VI)
Arc Raiders cải tiến hệ thống Thử nghiệm trong Phần 4 với tiến trình dễ tiếp cận hơn
28/04/2026
ChatGPT Images 2.0 ra mắt với khả năng suy luận trực quan và tạo văn bản được cải thiện
28/04/2026
DRM mới giới hạn các trò chơi kỹ thuật số trên PlayStation 5 nếu không có kết nối thường xuyên
28/04/2026
Các báo cáo cho thấy những thay đổi đối với giấy phép kỹ thuật số PlayStation với các lần kiểm tra 30 ngày một lần
28/04/2026
Người dùng thông báo yêu cầu kết nối 30 ngày một lần trong các tựa game kỹ thuật số PS5
28/04/2026
Nghiên cứu của Đức tiết lộ rằng bia cung cấp lượng vitamin B6 phù hợp
28/04/2026
GTA 6 có được hệ thống truy đuổi thực tế với khu vực tìm kiếm thời gian thực
28/04/2026
Các nhà thiên văn học chuẩn bị quan sát nhật thực dài nhất trên đất liền thế kỷ 21
28/04/2026
Em bé chào đời trên chuyến bay Delta vài phút trước khi hạ cánh ở Portland
28/04/2026
Samsung ra mắt trợ lý AI lọc cuộc gọi trên Galaxy S25 với One UI 8.5
28/04/2026
Samsung bắt đầu phân phối One UI 8.5 ổn định cho Galaxy S25 tại Hàn Quốc
28/04/2026


