Meta Movie Gen: Mở ra kỷ nguyên AI mới cho người sáng tạo nội dung

Cho dù bạn là một nhà làm phim đầy tham vọng khao khát chinh phục Hollywood hay một người sáng tạo nội dung yêu thích kết nối với khán giả qua video, chúng tôi tin rằng ai cũng xứng đáng được tiếp cận những công cụ giúp nâng tầm khả năng sáng tạo. Hôm nay, chúng tôi tự hào giới thiệu Meta Movie Gen, một bước đột phá trong nghiên cứu AI về truyền thông, bao gồm hình ảnh, video và âm thanh. Nghiên cứu mới nhất của chúng tôi chứng minh cách bạn có thể sử dụng những dòng văn bản đơn giản để tạo ra video và âm thanh theo ý muốn, chỉnh sửa video hiện có và biến hình ảnh cá nhân thành một video độc đáo. Khi được con người đánh giá, Movie Gen cho kết quả vượt trội so với các mô hình tương tự trong ngành trên tất cả các tác vụ này.

Công trình này là một phần trong chuỗi thành tích đã được chứng minh về việc chia sẻ nghiên cứu AI nền tảng của chúng tôi với cộng đồng. Làn sóng nghiên cứu AI đầu tiên của chúng tôi bắt đầu với loạt mô hình Make-A-Scene cho phép tạo ra hình ảnh, âm thanh, video, và hoạt hình 3D . Với sự ra đời của mô hình khuếch tán, chúng tôi đã có làn sóng thứ hai với các mô hình nền tảng Llama Image, cho phép tạo ra hình ảnh và video chất lượng cao hơn, cũng như chỉnh sửa hình ảnh. Movie Gen là làn sóng thứ ba của chúng tôi, kết hợp tất cả các phương thức này và cho phép kiểm soát chi tiết hơn cho người dùng theo cách chưa từng có. Tương tự như các thế hệ trước, chúng tôi dự đoán những mô hình này sẽ cho ra đời nhiều sản phẩm mới có thể thúc đẩy sự sáng tạo.

Mặc dù có rất nhiều trường hợp sử dụng thú vị cho các mô hình nền tảng này, nhưng điều quan trọng cần lưu ý là AI tạo sinh không phải là sự thay thế cho công việc của các nghệ sĩ và nhà làm phim hoạt hình. Chúng tôi chia sẻ nghiên cứu này bởi vì chúng tôi tin vào sức mạnh của công nghệ này trong việc giúp mọi người thể hiện bản thân theo những cách thức mới và mang đến cơ hội cho những người có thể không có được chúng. Chúng tôi hy vọng rằng một ngày nào đó trong tương lai, mọi người sẽ có cơ hội hiện thực hóa tầm nhìn nghệ thuật của mình và tạo ra video và âm thanh độ nét cao bằng cách sử dụng Movie Gen.

Đằng sau bức màn: Khám phá sức mạnh của Meta Movie Gen

Là bộ mô hình kể chuyện tiên tiến và sống động nhất, Movie Gen có bốn khả năng: tạo video, tạo video được cá nhân hóa, chỉnh sửa video chính xác và tạo âm thanh. Chúng tôi đã huấn luyện những mô hình này trên sự kết hợp của các tập dữ liệu được cấp phép và có sẵn công khai. Trong khi chúng tôi chia sẻ chi tiết kỹ thuật hơn trong bài báo nghiên cứu của mình, chúng tôi rất vui mừng được chia sẻ trong bài đăng trên blog này cách thức hoạt động của từng khả năng này.

Tạo video: Từ văn bản đến khung hình sống động

Với một đoạn văn bản đầu vào, chúng tôi có thể tận dụng mô hình chung đã được tối ưu hóa cho cả chuyển văn bản thành hình ảnh và chuyển văn bản thành video để tạo ra hình ảnh và video chất lượng cao, độ nét cao. Mô hình biến đổi 30 tỷ tham số này có khả năng tạo video dài tối đa 16 giây với tốc độ 16 khung hình/giây. Chúng tôi nhận thấy rằng các mô hình này có thể lý luận về chuyển động của đối tượng, tương tác chủ thể-đối tượng và chuyển động của camera, và chúng có thể học các chuyển động hợp lý cho nhiều khái niệm khác nhau—khiến chúng trở thành mô hình tiên tiến nhất trong danh mục của mình.

Video cá nhân hóa: Đưa bạn vào thế giới sáng tạo

Chúng tôi cũng đã mở rộng mô hình nền tảng trên để hỗ trợ tạo video được cá nhân hóa. Chúng tôi lấy hình ảnh của một người làm đầu vào và kết hợp nó với lời nhắc văn bản để tạo ra video có chứa người tham chiếu và các chi tiết hình ảnh phong phú được thông báo bởi lời nhắc văn bản. Mô hình của chúng tôi đạt được kết quả tiên tiến nhất khi nói đến việc tạo video được cá nhân hóa, lưu giữ bản sắc và chuyển động của con người.

Chỉnh sửa video chính xác: Kiểm soát từng chi tiết

Biến thể chỉnh sửa của cùng một mô hình nền tảng lấy cả video và lời nhắc văn bản làm đầu vào, thực hiện các tác vụ với độ chính xác để tạo ra đầu ra mong muốn. Nó kết hợp việc tạo video với chỉnh sửa hình ảnh nâng cao, thực hiện các chỉnh sửa cục bộ như thêm, xóa hoặc thay thế các yếu tố và các thay đổi toàn cầu như sửa đổi nền hoặc phong cách. Không giống như các công cụ truyền thống yêu cầu kỹ năng chuyên môn hoặc các công cụ tạo sinh thiếu chính xác, Movie Gen bảo toàn nội dung gốc, chỉ nhắm mục tiêu vào các pixel có liên quan.

Tạo âm thanh: Hoàn thiện bức tranh cảm xúc

Cuối cùng, chúng tôi đã đào tạo một mô hình tạo âm thanh 13 tỷ tham số có thể lấy video và lời nhắc văn bản tùy chọn và tạo âm thanh chất lượng cao, độ trung thực cao lên đến 45 giây, bao gồm âm thanh xung quanh, hiệu ứng âm thanh (Foley) và nhạc nền nhạc cụ—tất cả đều được đồng bộ hóa với nội dung video. Hơn nữa, chúng tôi giới thiệu kỹ thuật mở rộng âm thanh có thể tạo ra âm thanh mạch lạc cho video có độ dài tùy ý—nói chung đạt được hiệu suất tiên tiến nhất về chất lượng âm thanh, căn chỉnh video với âm thanh và căn chỉnh văn bản với âm thanh.

Kết quả ấn tượng: Nâng tầm tiêu chuẩn ngành

Những mô hình nền tảng này yêu cầu chúng tôi thúc đẩy nhiều đổi mới kỹ thuật về kiến trúc, mục tiêu đào tạo, công thức dữ liệu, giao thức đánh giá và tối ưu hóa suy luận.

Dưới đây, chúng tôi trình bày các so sánh đánh giá của con người A/B trên bốn khả năng của chúng tôi. Tỷ lệ thắng ròng dương tương ứng với việc con người thích kết quả của mô hình của chúng tôi hơn so với các mô hình cạnh tranh trong ngành. Để biết thêm chi tiết và đánh giá, vui lòng tham khảo bài báo của chúng tôi.

Mặc dù nghiên cứu mà chúng tôi đang chia sẻ ngày nay cho thấy tiềm năng to lớn cho các ứng dụng trong tương lai, nhưng chúng tôi thừa nhận rằng các mô hình hiện tại của chúng tôi có những hạn chế. Đáng chú ý, có rất nhiều tối ưu hóa mà chúng tôi có thể thực hiện để tiếp tục giảm thời gian suy luận và cải thiện chất lượng của các mô hình bằng cách mở rộng quy mô hơn nữa.

Con đường phía trước: Mở ra tương lai sáng tạo với AI

Meta Movie Gen là minh chứng cho cam kết của chúng tôi trong việc thúc đẩy ranh giới của AI tạo sinh và ứng dụng nó để trao quyền cho mọi người sáng tạo nội dung. Chúng tôi tin rằng công nghệ này có tiềm năng cách mạng hóa cách chúng ta kể chuyện, thể hiện bản thân và trải nghiệm thế giới xung quanh.