Google đã phát hành phiên bản cập nhật của mô hình trí tuệ nhân tạo Lyria 3 Pro để tạo âm thanh và các tác phẩm âm thanh. Thay đổi kỹ thuật chính làm tăng giới hạn tạo bản nhạc lên ba phút liên tục. Công suất trước đây của hệ thống đã khôi phục trần xử lý chỉ trong ba mươi giây. Những người đăng ký gói trả phí cho ứng dụng Gemini đã nhận được quyền truy cập dần dần vào tính năng mới trong tài khoản của họ.
Sự tiến bộ về độ dài bản nhạc đáp ứng nhu cầu trực tiếp từ các nhà sản xuất kỹ thuật số và người sáng tạo nội dung về các tài liệu phong phú. Kiến trúc của mô hình đã trải qua những cải tiến về cấu trúc để xử lý các lệnh văn bản với độ chính xác và chi tiết kỹ thuật cao hơn. Quá trình xử lý diễn ra trên các máy chủ chuyên dụng của công ty, đảm bảo phân phối các tệp có chất lượng giọng nói, thiết bị đo đạc và phòng thu. Công nghệ này cung cấp bản nhạc hoàn chỉnh trong vòng vài giây sau khi nhập văn bản. Tính năng này giúp loại bỏ nhu cầu tìm kiếm bản nhạc trong ngân hàng âm thanh bên ngoài hoặc thư viện của bên thứ ba.
https://twitter.com/GeminiApp/status/2036836190431711500?ref_src=twsrc%5Etfw
Khả năng xử lý và cấu trúc âm thanh
Quá trình chuyển đổi từ ba mươi giây sang ba phút đánh dấu một bước nhảy vọt về mặt tính toán đáng kể trong phân đoạn âm thanh tổng hợp. Lyria 3 Pro duy trì sự mạch lạc hài hòa và nhịp nhàng xuyên suốt toàn bộ bản nhạc. Hệ thống tránh được hiện tượng biến dạng, nhiễu hoặc giảm chất lượng thường xảy ra ở các thế hệ trí tuệ nhân tạo kéo dài. Nền tảng phân tích yêu cầu của người dùng và xây dựng âm nhạc thành các lớp độc lập. Nhịp điệu, giai điệu nền và giọng nói tổng hợp hoạt động đồng bộ ngay từ những giây đầu tiên của tác phẩm.
Việc kiểm soát cấu trúc bài hát diễn ra thông qua các lệnh văn bản chi tiết được chèn vào nền tảng. Mô hình này bao gồm các hướng dẫn cụ thể để tách tác phẩm thành các khối công nghiệp âm nhạc truyền thống. Người dùng có thể đặt thời gian chính xác cho phần giới thiệu, câu thơ, cầu nối và điệp khúc. Tính năng phân đoạn giúp dễ dàng tạo các bản nhạc hướng đến tiêu chuẩn đài phát thanh thương mại hoặc các dự án nghe nhìn thử nghiệm. Trí tuệ nhân tạo điều chỉnh sự chuyển tiếp giữa các phần để đảm bảo âm thanh tự nhiên đến tai khán giả.
Những người thử nghiệm bản beta và nhà sản xuất âm nhạc đã báo cáo những phản hồi hiệu quả đối với các yêu cầu phức tạp về cách sắp xếp và thể loại. Hệ thống cho phép trộn các phong cách âm nhạc khác nhau trong cùng một bản nhạc dài ba phút. Nhà sản xuất có thể thay đổi cường độ của nhạc cụ tại những thời điểm cụ thể trong bài hát thông qua việc điều chỉnh văn bản. Xử lý ngôn ngữ tự nhiên chuyển các thuật ngữ kỹ thuật từ lý thuyết âm nhạc thành kết quả thực tế, dễ nghe. Tính linh hoạt của phần mềm giúp giảm đáng kể thời gian tạo bản phác thảo hoặc theo dõi bản nhạc cho studio.
Tích hợp với hệ sinh thái ứng dụng doanh nghiệp
Bản phân phối Lyria 3 Pro trải rộng trên nhiều nền tảng được hệ sinh thái Google hỗ trợ. Người đăng ký gói nâng cao của Gemini truy cập trực tiếp vào giao diện tạo thông qua ứng dụng di động hoặc trình duyệt web. Lĩnh vực kinh doanh và phát triển phần mềm có mô hình có sẵn trong Google AI Studio và thông qua API Gemini. Tính mở của công nghệ cho phép tạo ra các ứng dụng của bên thứ ba dựa trên công cụ âm thanh của công ty. Các tập đoàn lớn hơn sử dụng Vertex AI, một nền tảng máy học trên nền tảng đám mây, để tích hợp công cụ này vào hệ thống nội bộ của họ.
Mô hình này cũng hoạt động nguyên bản trên Google Vids, tập trung vào chỉnh sửa video và trong môi trường cộng tác ProduceAI. Tính linh hoạt của công cụ này phục vụ các ngóc ngách khác nhau trong thị trường tiếp thị kỹ thuật số và giải trí nghe nhìn. Việc tạo nhanh âm thanh có cấu trúc sẽ tối ưu hóa lịch trình cho các dự án lớn yêu cầu chất liệu âm thanh gốc. Việc sử dụng trí tuệ nhân tạo trong thực tế bao gồm một số khía cạnh của công việc hàng ngày:
- Tạo nhạc nền độc quyền cho video hướng dẫn và vlog của công ty.
- Phát triển họa tiết và nhạc chuyển tiếp cho các tập podcast.
- Tạo hiệu ứng và âm thanh môi trường năng động cho lĩnh vực trò chơi.
- Sản xuất vật liệu âm thanh trên quy mô lớn cho các chiến dịch quảng cáo kỹ thuật số.
Việc tích hợp với các quy trình làm việc đã được thiết lập sẽ củng cố chiến lược của công ty trong việc định vị trí tuệ nhân tạo như một tiện ích hàng ngày. Người biên tập và tiếp thị video có thể tạo ra bầu không khí chính xác như mong muốn cho một cảnh cụ thể. Bản nhạc được tạo sẽ đồng bộ hóa hoàn hảo với tài liệu trực quan mà không cần kiến thức phối âm nâng cao. Quá trình này loại bỏ việc cấp phép âm nhạc thương mại chi phí cao cho các chiến dịch ngắn hạn.
Cơ chế bảo mật và bảo vệ bản quyền
Sự tiến bộ của công nghệ tạo âm thanh làm dấy lên những cuộc tranh luận toàn cầu về sở hữu trí tuệ và bản quyền. Google đã triển khai các bộ lọc bảo mật nghiêm ngặt trên Lyria 3 Pro để giảm thiểu rủi ro pháp lý và lạm dụng. Hệ thống chặn mọi nỗ lực sao chép giọng hát của ca sĩ thực sự hoặc nhân vật của công chúng. Mô hình này không sản xuất các bản sao trực tiếp của âm nhạc được các hãng thu âm hoặc nghệ sĩ độc lập bảo vệ. Việc đề cập đến một nghệ sĩ nổi tiếng trong lệnh chỉ dẫn đến việc đề cập đến một phong cách hoặc thể loại âm nhạc. Danh tính giọng nói của người đó vẫn được bảo toàn hoàn toàn và không thể truy cập để sao chép.
Việc áp dụng SynthID cho tất cả các bản nhạc được tạo thể hiện một biện pháp bảo mật cơ bản khác được nền tảng áp dụng. Công nghệ này nhúng hình mờ kỹ thuật số vô hình và không nghe được trực tiếp vào phổ âm thanh của tệp được xuất. Điểm đánh dấu chịu được các chỉnh sửa, nén tệp hoặc thay đổi định dạng nặng trong phần mềm của bên thứ ba. Phần mềm xác minh có thể xác định nguồn gốc tổng hợp của vật liệu ngay lập tức. Sáng kiến này thúc đẩy tính minh bạch trong việc sử dụng phương tiện truyền thông và chống lại thông tin sai lệch liên quan đến âm thanh giả trên internet.
Các biện pháp kiểm soát bảo mật hoạt động theo thời gian thực trong từng giây xử lý bản nhạc. Việc tạo sẽ dừng ngay lập tức nếu hệ thống phát hiện vi phạm nguyên tắc sử dụng nền tảng. Các nỗ lực lặp đi lặp lại nhằm phá vỡ các biện pháp bảo vệ bản quyền sẽ khiến yêu cầu của người dùng bị chặn. Đội ngũ kỹ thuật tận tâm liên tục cập nhật các bộ lọc bảo mật. Tác phẩm tuân theo các quy định hiện hành về trí tuệ nhân tạo và bản quyền ở các quốc gia hoạt động khác nhau.
Tác động đến thị trường sáng tạo nội dung số
Quá trình phát triển Lyria 3 Pro có sự tham gia tích cực của các nhạc sĩ và kỹ sư âm thanh chuyên nghiệp trong quá trình đào tạo. Sự hợp tác kỹ thuật đảm bảo sự hiểu biết sâu sắc về các sắc thái hòa âm, hòa âm và tiến triển hợp âm. Kết quả thực tế mang lại các tệp âm thanh cân bằng sẵn sàng để sử dụng chuyên nghiệp. Công cụ này ngăn chặn sự chồng chéo không chính xác của các giọng và nhạc cụ cơ bản, một vấn đề thường gặp ở các mẫu trước đây. Phần mềm này hoạt động như một trợ lý sáng tác mạnh mẽ cho các nghệ sĩ độc lập và nhà sản xuất mới bắt đầu.
Sự sẵn có của các tác phẩm hoàn chỉnh dài ba phút sẽ thay đổi động lực làm việc trên các nền tảng video và mạng xã hội. Các kênh của người sáng tạo có toàn quyền tự chủ trong việc sản xuất các bản nhạc gốc của riêng mình mà không cần dựa vào các thư viện hạn chế. Giảm chi phí cấp phép thúc đẩy việc áp dụng công nghệ của các hãng phim và đại lý quảng cáo nhỏ. Tính năng này cho phép bạn nhanh chóng kiểm tra tiến trình và cách sắp xếp trước khi thu âm lần cuối trong phòng thu bằng nhạc cụ thực.
Google duy trì chu kỳ cập nhật mô hình lặp đi lặp lại dựa trên khối lượng dữ liệu được tạo hàng ngày. Phản hồi từ cộng đồng nhà phát triển và nhà sản xuất âm nhạc hướng dẫn các cải tiến kiến trúc hệ thống sắp tới. Việc mở rộng năng lực xử lý âm thanh củng cố cơ sở hạ tầng của công ty trong khu vực doanh nghiệp. Công nghệ này cạnh tranh trực tiếp với các nền tảng khác tập trung vào các giải pháp sáng tạo cho thị trường nghe nhìn và tiêu dùng cuối cùng.

