Black Forest Labs ra mắt Self-Flow giúp huấn luyện AI đa phương thức nhanh gấp 2,8 lần

Việc huấn luyện các mô hình AI tạo sinh hình ảnh và video như Stable Diffusion hay FLUX từ trước đến nay vẫn phải dựa dẫm vào các “người thầy” bên ngoài là những bộ mã hóa như CLIP hoặc DINOv2 để cung cấp sự hiểu biết về ngữ nghĩa. Tuy nhiên, sự phụ thuộc này đã tạo ra một nút thắt cổ chai về hiệu suất, khi việc mở rộng quy mô mô hình không còn mang lại kết quả đột phá do các bộ mã hóa bên ngoài đã chạm ngưỡng giới hạn. Black Forest Labs, đơn vị phát triển dòng mô hình FLUX, vừa công bố kỹ thuật Self-Flow nhằm chấm dứt kỷ nguyên vay mượn này bằng một khung làm việc tự giám sát, cho phép mô hình tự học cách biểu diễn và tạo nội dung cùng một lúc.

Điểm mấu chốt của công nghệ này nằm ở cơ chế Dual-Timestep Scheduling, tạo ra sự bất đối xứng thông tin để thúc đẩy quá trình học tập nội tại. Trong hệ thống này, phiên bản “học sinh” sẽ nhận dữ liệu bị nhiễu nặng, trong khi phiên bản “giáo viên” (là chính mô hình đó ở trạng thái trung bình động – EMA) sẽ nhìn thấy dữ liệu sạch hơn. Nhiệm vụ của học sinh không chỉ là tạo ra kết quả cuối cùng mà còn phải dự đoán những gì phiên bản giáo viên đang thấy, một quá trình tự chưng cất giúp mô hình hình thành hiểu biết ngữ nghĩa sâu sắc về thế giới mà không cần bất kỳ sự giám sát ngoại lai nào.

Kết quả thực tế từ nghiên cứu cho thấy Self-Flow có tốc độ hội tụ nhanh hơn khoảng 2,8 lần so với phương pháp REPA vốn đang là tiêu chuẩn công nghiệp hiện nay. Đáng kinh ngạc hơn, khi so sánh với phương pháp huấn luyện truyền thống cần tới 7 triệu bước để đạt mốc hiệu suất cơ bản, kỹ thuật mới này chỉ cần khoảng 143.000 bước, tương đương với việc cắt giảm tổng khối lượng tính toán xuống gần 50 lần. Sự cải thiện này không bị chững lại khi tăng quy mô tài nguyên, cho phép các mô hình tiếp tục tối ưu hóa hiệu suất tỉ lệ thuận với mức độ đầu tư vào phần cứng.

Trên phương diện đa phương thức, mô hình 4 tỷ tham số được huấn luyện bằng Self-Flow đã thể hiện những bước tiến vượt bậc về khả năng hiển thị văn bản (typography) và tính nhất quán theo thời gian trong video. Các lỗi “ảo giác” phổ biến như bộ phận cơ thể tự biến mất khi chuyển động đã được khắc phục đáng kể, đồng thời mô hình có thể tạo ra video và âm thanh đồng bộ hoàn hảo từ một câu lệnh duy nhất. Điều này đạt được là nhờ bộ khung hiểu biết nội tại của mô hình bao quát được nhiều loại dữ liệu khác nhau, thay vì bị giới hạn bởi một bộ mã hóa hình ảnh vốn không có khái niệm về âm thanh.

Xa hơn cả việc tạo ra nội dung giải trí, công nghệ này đang mở đường cho các mô hình thế giới ứng dụng trong robot và tự động hóa. Thử nghiệm trên tập dữ liệu robot RT-1 cho thấy mô hình có khả năng thực hiện các tác vụ phức tạp và suy luận thị giác trong thế giới thực ổn định hơn hẳn các phương pháp cũ. Đối với các doanh nghiệp, Self-Flow không chỉ giúp tiết kiệm chi phí vận hành mà còn loại bỏ sự phụ thuộc vào các mô hình mã hóa của bên thứ ba, giảm thiểu nợ kỹ thuật và cho phép xây dựng các hệ thống AI chuyên biệt, bảo mật và tối ưu hơn cho từng lĩnh vực cụ thể.

Sự xuất hiện của Self-Flow đánh dấu một bước chuyển dịch quan trọng từ việc sử dụng các mô hình AI chắp vá sang những kiến trúc thống nhất và tự chủ hoàn toàn. Các doanh nghiệp và nhà phát triển nên sớm tiếp cận bộ mã nguồn và tài liệu kỹ thuật mà Black Forest Labs đã chia sẻ trên GitHub để đánh giá tiềm năng tích hợp công nghệ này vào quy trình huấn luyện mô hình riêng, nhằm tối ưu hóa chi phí và nâng cao năng lực cạnh tranh trong dài hạn.