Công nghệ tạo video AI tiếp tục chứng kiến sự trỗi dậy của những cái tên mới, và Pyramid Flow là minh chứng rõ nét nhất. Ra mắt vào tuần này, công cụ này hứa hẹn mang đến những đoạn video chất lượng cao với thời lượng lên tới 10 giây một cách nhanh chóng, và đặc biệt là hoàn toàn mã nguồn mở.
Được phát triển bởi sự hợp tác giữa các nhà nghiên cứu từ Đại học Bắc Kinh, Đại học Bưu chính Viễn thông Bắc Kinh và Kuaishou Technology – cha đẻ của công cụ tạo video AI Kling độc quyền – Pyramid Flow tận dụng một kỹ thuật mới, trong đó một mô hình AI duy nhất tạo video theo từng giai đoạn, phần lớn ở độ phân giải thấp, và chỉ lưu phiên bản đầy đủ độ phân giải ở bước cuối cùng.
Người dùng có thể tải xuống mã nguồn của Pyramid Flow trên Hugging Face và Github, hoặc chạy thử nghiệm trong môi trường inference shell. Tuy nhiên, việc tải xuống và chạy mã mô hình trên máy tính cá nhân sẽ do người dùng tự thực hiện.
Theo thông tin từ nhà phát triển, mô hình này có thể tạo video 5 giây, độ phân giải 384p chỉ trong 56 giây – một tốc độ ấn tượng, thậm chí ngang bằng hoặc nhanh hơn nhiều công cụ khuếch tán toàn phần khác.
Mặc dù chưa có cơ hội trải nghiệm thực tế, nhưng dựa trên những video được nhà phát triển đăng tải, có thể thấy chất lượng hình ảnh của Pyramid Flow vô cùng chân thực, độ phân giải cao và ấn tượng, không thua kém gì các sản phẩm độc quyền. Bạn đọc có thể xem các video demo trên trang Github của dự án.
Pyramid Flow được thiết kế để tải xuống và sử dụng – ngay cả cho mục đích thương mại – và được kỳ vọng sẽ cạnh tranh trực tiếp với các dịch vụ độc quyền trả phí như Gen-3 Alpha của Runway, Dream Machine của Luma, Kling và Haulio – những cái tên có thể tiêu tốn của người dùng hàng trăm, thậm chí hàng nghìn đô la mỗi năm cho các gói tạo video không giới hạn.
Kỹ thuật mới cho video AI chất lượng cao: “Ghép dòng chảy kim tự tháp”
Tạo video AI là một tác vụ đòi hỏi khả năng tính toán cao, thường liên quan đến việc mô hình hóa không gian thời gian lớn. Các phương pháp truyền thống thường yêu cầu các mô hình riêng biệt cho các giai đoạn khác nhau của quy trình, điều này hạn chế tính linh hoạt và làm tăng độ phức tạp của việc đào tạo.
Pyramid Flow được xây dựng dựa trên khái niệm “ghép dòng chảy kim tự tháp”, một phương pháp giúp cắt giảm đáng kể chi phí tính toán của việc tạo video trong khi vẫn duy trì chất lượng hình ảnh cao, hoàn thành quy trình tạo video như một loạt các giai đoạn “kim tự tháp”, với chỉ giai đoạn cuối cùng hoạt động ở độ phân giải đầy đủ.
Phương pháp này được mô tả chi tiết trong bài báo “Pyramidal Flow Matching for Efficient Video Generative Modeling”, được gửi đến tạp chí khoa học truy cập mở arXiv vào ngày 8 tháng 10 năm 2024.
Theo các tác giả, khả năng nén và tối ưu hóa việc tạo video ở các giai đoạn khác nhau dẫn đến sự hội tụ nhanh hơn trong quá trình đào tạo, cho phép Pyramid Flow tạo ra nhiều mẫu hơn cho mỗi lần đào tạo.
Ví dụ, dòng chảy kim tự tháp được đề xuất giảm số lượng mã thông báo xuống bốn lần so với các mô hình khuếch tán truyền thống, dẫn đến việc đào tạo hiệu quả hơn.
Mô hình có thể tạo video dài 5 đến 10 giây ở độ phân giải 768p và tốc độ 24 khung hình/giây, tất cả đều được đào tạo trên các bộ dữ liệu nguồn mở. Cụ thể, bài báo cho biết Pyramid Flow được đào tạo trên:
- LAION-5B, một bộ dữ liệu lớn cho nghiên cứu AI đa phương thức.
- CC-12M, một bộ dữ liệu gồm các cặp hình ảnh-văn bản được thu thập từ web.
- SA-1B, có các hình ảnh chất lượng cao, không bị mờ.
- WebVid-10M và OpenVid-1M, là các bộ dữ liệu video được sử dụng rộng rãi để tạo văn bản thành video.
Tuy nhiên, nhiều bộ dữ liệu “công khai” hoặc “nguồn mở” này trong những năm gần đây đã bị chỉ trích vì bao gồm tài liệu có bản quyền mà không được phép hoặc sự đồng ý của chủ sở hữu bản quyền, và đặc biệt là LAION-5B bị cáo buộc lưu trữ tài liệu lạm dụng tình dục trẻ em.
Giấy phép cho phép sử dụng thương mại
Pyramid Flow được phát hành theo Giấy phép MIT, cho phép sử dụng rộng rãi, bao gồm các ứng dụng thương mại, sửa đổi và phân phối lại, miễn là thông báo bản quyền được giữ nguyên.
Điều này làm cho Pyramid Flow trở thành một lựa chọn hấp dẫn cho các nhà phát triển và công ty đang muốn tích hợp mô hình vào các hệ thống độc quyền và có thể thách thức Luma AI và Runway khi cả hai đều muốn cung cấp giao diện lập trình ứng dụng trả phí cho các nhà phát triển muốn tích hợp công nghệ tạo video AI độc quyền của họ vào ứng dụng hướng đến khách hàng hoặc nhân viên.
Kết luận
Khi thị trường tạo video AI tiếp tục phát triển, sự ra mắt của Pyramid Flow báo hiệu sự chuyển dịch sang các giải pháp nguồn mở, dễ tiếp cận hơn, có thể cạnh tranh với các dịch vụ độc quyền như Runway và Luma.
Hiện tại, nó cung cấp một giải pháp thay thế vững chắc cho những ai muốn tránh chi phí và hạn chế của các mô hình đóng, đồng thời cung cấp chất lượng video ấn tượng ngang bằng với các đối tác thương mại của nó.
Trong những tháng tới, các nhà phát triển và nhà sáng tạo có thể sẽ theo dõi sát sao sự phát triển của Pyramid Flow. Với tiềm năng cải tiến và tối ưu hóa hơn nữa, nó rất có thể trở thành một công cụ hữu ích trong kho vũ khí của những người sáng tạo nội dung video ở khắp mọi nơi. Tất cả các công ty và nhà nghiên cứu hiện đang chiến đấu cho cả uy thế công nghệ và người dùng.