Runway Gen-3: Cuộc cách mạng mới trong lĩnh vực video AI?

Runway, công ty AI nổi tiếng với công cụ tạo video đột phá, vừa giới thiệu phiên bản mới nhất của mình: Runway Gen-3. Gen-3 đã gây ấn tượng mạnh với loạt video mẫu cho thấy sự tiến bộ vượt bậc về độ liền mạch, chân thực và bám sát yêu cầu so với Gen-2 hiện tại.

Điểm đáng chú ý nhất chính là khả năng tái tạo hình ảnh con người cực kỳ sống động, thậm chí được cộng đồng AI đánh giá cao hơn cả Sora – công cụ rất được mong đợi từ OpenAI. Trên Reddit, nhiều người dùng cho rằng Gen-3 cho ra hình ảnh “thực tế hơn hẳn Sora” và “nhìn như người thật”. Một bình luận khác trên subreddit AI Video với 66.000 thành viên nhận xét: “Nếu chỉ nhìn thoáng qua, tôi sẽ nghĩ đó là người thật”.

PZF, một nhà làm phim AI có tiếng và là đối tác sáng tạo của Runway, cũng bày tỏ sự ấn tượng trên Twitter: “Runway Gen-3 mang đến cảm giác điện ảnh rất riêng – mượt mà, tinh tế và chân thật”.

Không chỉ nâng cấp khả năng tạo video, Runway còn giới thiệu bộ công cụ tinh chỉnh linh hoạt, cho phép kiểm soát hình ảnh và góc máy quay chi tiết hơn. Anastasis Germanidis, đồng sáng lập kiêm CTO của Runway AI, chia sẻ với Decrypt: “Nền tảng đa phương tiện của Runway vốn đã hỗ trợ tạo hình ảnh từ văn bản, được huấn luyện dựa trên cả video và hình ảnh. Gen-3 Alpha sẽ tiếp tục nâng cao hiệu suất cho các công cụ Text to Video, Image to Video và Text to Image của Runway.”

Tham vọng của Runway với Gen-3 là tạo ra “Mô hình Thế giới Tổng quát”, cho phép AI xây dựng biểu diễn nội bộ về môi trường và mô phỏng các sự kiện tương lai trong đó. Đây là bước tiến vượt trội so với các kỹ thuật thông thường chỉ tập trung dự đoán khung hình tiếp theo.

Mặc dù chưa có ngày phát hành chính thức, Germanidis khẳng định Gen-3 Alpha sẽ sớm ra mắt trong “vài ngày tới” dành cho người đăng ký Runway trả phí, đối tác sáng tạo và người dùng doanh nghiệp. Ông cũng thông báo trên Twitter rằng Gen-3 Alpha sẽ hỗ trợ tất cả chế độ hiện có (text-to-video, image-to-video, video-to-video) và bổ sung thêm nhiều tính năng mới.

Hành trình của Runway trong lĩnh vực AI bắt đầu từ năm 2021 khi hợp tác với các nhà nghiên cứu tại Đại học Munich để xây dựng Stable Diffusion. Sau đó, Stability AI tham gia hỗ trợ chi phí tính toán và đưa dự án trở thành hiện tượng toàn cầu.

Từ đó đến nay, Runway đã trở thành cái tên đáng gờm trong lĩnh vực video AI, cạnh tranh trực tiếp với Pika Labs và gần đây nhất là OpenAI với Sora. Tuy nhiên, sự xuất hiện của các đối thủ mới như Kling của Kuaishou và Dream Machine của Luma AI đã thay đổi cục diện.

Kling, công cụ tạo video của Trung Quốc, có khả năng tạo video dài 2 phút với độ phân giải 1080p, tốc độ 30 khung hình/giây – vượt trội hơn hẳn các mô hình hiện có. Dream Machine là nền tảng miễn phí chuyển đổi văn bản thành video động, cho kết quả vượt trội so với Runway Gen-2 về chất lượng, độ liền mạch và bám sát yêu cầu.

Trong khi đó, Stable Video Diffusion – dự án mã nguồn mở – cung cấp nền tảng vững chắc cho phát triển trong tương lai. Vidu, một công cụ tạo video AI khác của Trung Quốc, sử dụng kiến trúc mô hình biến đổi hình ảnh độc quyền (U-ViT) để tạo video 16 giây với độ phân giải 1080p chỉ bằng một cú nhấp chuột.

Pika Labs vẫn chưa tung ra bản cập nhật lớn nào, khiến khả năng của nó chỉ tương đương với Runway Gen-2.

Với sự ra mắt của Gen-3, Runway đang đặt ra một chuẩn mực mới cho ngành công nghiệp video AI. Liệu Gen-3 có tạo nên cú hích đột phá, hay sẽ bị lu mờ bởi các đối thủ nặng ký khác? Chỉ có thời gian mới cho chúng ta câu trả lời.