Công cụ cập nhật của Google tạo các tác phẩm âm nhạc dài ba phút trong ứng dụng Gemini

Lyria 3 Pro

Lyria 3 Pro - Divulgação

Google đã cung cấp Lyria 3 Pro, phiên bản cập nhật của mô hình trí tuệ nhân tạo nhằm tạo ra các tác phẩm âm thanh và âm thanh. Thay đổi kỹ thuật chính của công cụ này bao gồm việc tăng giới hạn thời gian cho mỗi bản nhạc, từ 30 giây ở thế hệ trước lên đến ba phút liên tục. Tính năng mới đáp ứng nhu cầu của người sáng tạo nội dung và nhà sản xuất kỹ thuật số về tài liệu phong phú và đầy đủ hơn. Quyền truy cập ban đầu diễn ra dần dần đối với những người dùng đã đăng ký trả phí cho ứng dụng Gemini.

Sự tiến bộ về độ dài bản nhạc đi kèm với những cải tiến trong kiến ​​trúc của mô hình, hiện xử lý các lệnh văn bản với độ chính xác cao hơn để cấu trúc các tác phẩm. Công ty đã tích hợp công nghệ vào các khía cạnh khác nhau của hệ sinh thái công ty, cho phép các chuyên gia chỉnh sửa và nhà phát triển phần mềm sử dụng trí tuệ nhân tạo trực tiếp trong quy trình làm việc của họ. Quá trình xử lý diễn ra trên các máy chủ chuyên dụng, đảm bảo phân phối các tệp có giọng hát, nhạc cụ và chất lượng phòng thu trong vòng vài giây sau khi nhập lời nhắc.

https://twitter.com/GeminiApp/status/2036836190431711500?ref_src=twsrc%5Etfw

Khả năng xử lý và cấu trúc âm thanh mở rộng

Quá trình chuyển đổi từ ba mươi giây sang ba phút thể hiện một bước nhảy vọt về mặt tính toán đáng kể trong phân đoạn âm thanh tổng hợp. Lyria 3 Pro quản lý để duy trì sự mạch lạc hài hòa và nhịp nhàng trong toàn bộ chiều dài của bản nhạc, tránh hiện tượng biến dạng hoặc mất chất lượng có xu hướng xảy ra trong nhiều thế hệ kéo dài. Hệ thống phân tích yêu cầu của người dùng và xây dựng từng lớp nhạc, kết hợp beat, giai điệu nền và giọng nói tổng hợp một cách đồng bộ.

Người dùng có quyền kiểm soát cấu trúc của bài hát thông qua các lệnh văn bản chi tiết. Mô hình bao gồm các hướng dẫn cụ thể để tách tác phẩm thành các khối truyền thống, chẳng hạn như phần giới thiệu, câu thơ, cầu nối và hợp xướng. Việc phân đoạn này tạo điều kiện thuận lợi cho việc tạo các bản nhạc tuân theo các tiêu chuẩn thương mại hoặc thử nghiệm, tùy thuộc vào nhu cầu của dự án. Trí tuệ nhân tạo điều chỉnh sự chuyển tiếp giữa các phần này để sự thay đổi nhịp điệu nghe tự nhiên đến tai bạn.

Các nhà sản xuất âm nhạc và người thử nghiệm phiên bản beta đã báo cáo rằng công cụ này đáp ứng hiệu quả các yêu cầu phức tạp về cách sắp xếp và thể loại âm nhạc. Có thể yêu cầu trộn các phong cách khác nhau trên cùng một bản nhạc hoặc thay đổi cường độ của nhạc cụ tại những thời điểm cụ thể trong bài hát. Quá trình xử lý ngôn ngữ tự nhiên của hệ thống chuyển các thuật ngữ kỹ thuật từ lý thuyết âm nhạc thành kết quả âm thanh thực tế, giảm thời gian tạo bản phác thảo hoặc bản đệm.

Tích hợp với hệ sinh thái ứng dụng và dịch vụ

Lyria 3 Pro được phân phối trên nhiều nền tảng do Google duy trì. Trong thị trường tiêu dùng, những người đăng ký gói nâng cao của Gemini truy cập trực tiếp vào giao diện tạo thông qua ứng dụng hoặc trình duyệt. Đối với lĩnh vực doanh nghiệp và phát triển, công ty đã phát hành mô hình này trong Google AI Studio và thông qua API Gemini. Tính mở này cho phép các lập trình viên xây dựng các ứng dụng của bên thứ ba sử dụng công cụ âm thanh của Google để tạo nhạc theo yêu cầu trong các giao diện khác.

Các tập đoàn lớn và studio sáng tạo có quyền truy cập thông qua Vertex AI, nền tảng máy học trên nền tảng đám mây của công ty. Ngoài ra, mô hình này đã được tích hợp nguyên bản vào Google Vids, ứng dụng chỉnh sửa video tập trung vào máy tính để bàn và ProduceAI, một môi trường cộng tác để sản xuất âm nhạc. Sự hiện diện của công cụ trong các phần mềm này giúp loại bỏ nhu cầu tìm kiếm bản nhạc trong ngân hàng âm thanh bên ngoài.

Xem Thêm

Tính linh hoạt của mô hình phục vụ các ngóc ngách khác nhau trong thị trường giải trí nghe nhìn và kỹ thuật số. Việc tạo nhanh âm thanh có cấu trúc sẽ tối ưu hóa lịch trình cho các dự án yêu cầu khối lượng lớn vật liệu âm thanh gốc.

  • Tạo nhạc nền độc quyền cho video hướng dẫn và vlog của công ty.
  • Phát triển họa tiết và nhạc chuyển tiếp cho các tập podcast.
  • Tạo hiệu ứng và nhạc nền động cho lĩnh vực trò chơi.
  • Sản xuất tài liệu âm thanh trên quy mô lớn cho các chiến dịch quảng cáo kỹ thuật số.

Việc tích hợp với các quy trình công việc đã được thiết lập thể hiện chiến lược của Google trong việc định vị các công cụ tổng hợp của mình như những tiện ích thiết thực. Các nhà tiếp thị và biên tập video có thể xác định tâm trạng mong muốn cho một cảnh và đưa bản nhạc vào thời điểm hoàn hảo cho tài liệu hình ảnh.

Cơ chế bảo mật và bảo vệ bản quyền

Sự tiến bộ của công nghệ tạo âm thanh làm dấy lên tranh luận về bản quyền và lạm dụng tài sản trí tuệ. Để giảm thiểu những rủi ro này, Google đã triển khai các bộ lọc bảo mật nghiêm ngặt trên Lyria 3 Pro. Hệ thống chặn các nỗ lực sao chép giọng hát của ca sĩ thật và ngăn mô hình tạo ra các bản sao trực tiếp của nhạc có bản quyền. Khi người dùng nhập tên của một nghệ sĩ nổi tiếng vào lệnh, trí tuệ nhân tạo sẽ chỉ hiểu đề cập đó là tham chiếu đến phong cách hoặc thể loại mà không bắt chước danh tính giọng hát của người đó.

Một biện pháp bảo mật khác được công ty áp dụng là ứng dụng SynthID cho tất cả các bản nhạc do nền tảng này tạo ra. Công nghệ này nhúng hình mờ kỹ thuật số vô hình và không nghe được trực tiếp vào phổ âm thanh của tệp. Điểm đánh dấu chống lại việc chỉnh sửa, nén hoặc thay đổi định dạng, cho phép phần mềm xác minh xác định nguồn gốc tổng hợp của vật liệu. Sáng kiến ​​này nhằm mục đích thúc đẩy tính minh bạch trong việc sử dụng phương tiện truyền thông và chống lại thông tin sai lệch hoặc gian lận liên quan đến âm thanh giả.

Kiểm tra bảo mật diễn ra trong thời gian thực trong quá trình xử lý nhanh chóng. Nếu hệ thống phát hiện yêu cầu vi phạm nguyên tắc sử dụng hoặc cố gắng phá vỡ các biện pháp bảo vệ bản quyền thì việc tạo sẽ dừng ngay lập tức. Google duy trì các nhóm chuyên trách liên tục cập nhật các bộ lọc này, tuân theo các quy định hiện hành về trí tuệ nhân tạo ở các quốc gia khác nhau.

Tác động đến thị trường sáng tạo nội dung số

Quá trình phát triển Lyria 3 Pro có sự tham gia của các nhạc sĩ, kỹ sư âm thanh và nhà sản xuất chuyên nghiệp trong giai đoạn đào tạo mẫu. Sự hợp tác kỹ thuật này đảm bảo rằng trí tuệ nhân tạo hiểu được các sắc thái hòa âm, tiến trình hợp âm và hòa âm. Kết quả thực tế là một công cụ cung cấp các tệp âm thanh cân bằng, trong đó giọng hát không bị trùng lặp không chính xác với các nhạc cụ cơ bản.

Sự sẵn có của các tác phẩm hoàn chỉnh dài ba phút sẽ thay đổi động lực làm việc của những người sáng tạo độc lập. Các kênh video và hồ sơ trên mạng xã hội được quyền tự chủ sản xuất các bản nhạc của riêng mình, giảm chi phí cấp phép cho âm nhạc thương mại. Mô hình này đóng vai trò như một trợ lý sáng tác, cho phép các nghệ sĩ nhanh chóng kiểm tra các tiến trình và cách sắp xếp trước khi thu âm phiên bản cuối cùng trong phòng thu bằng các nhạc cụ thực sự.

Google duy trì một chu kỳ cập nhật lặp đi lặp lại cho mô hình, dựa trên khối lượng dữ liệu do người dùng tạo và phản hồi từ cộng đồng nhà phát triển. Việc mở rộng năng lực xử lý âm thanh củng cố cơ sở hạ tầng của công ty trong lĩnh vực trí tuệ nhân tạo tổng hợp, cạnh tranh trực tiếp với các nền tảng khác tập trung vào các giải pháp sáng tạo cho thị trường doanh nghiệp và người tiêu dùng cuối cùng.

Xem Thêm