Multiverse Computing phổ cập các mô hình AI nén chạy trực tiếp trên thiết bị

Tỷ lệ vỡ nợ của các công ty tư nhân đang ở mức cao kỷ lục trong nhiều năm qua, chạm ngưỡng 9,2%, khiến quỹ đầu tư Lux Capital phải đưa ra lời cảnh báo nghiêm khắc cho các doanh nghiệp phụ thuộc vào trí tuệ nhân tạo. Thay vì chỉ dựa vào những thỏa thuận miệng thiếu tính pháp lý về năng lực tính toán, các công ty được khuyến nghị phải có cam kết bằng văn bản để tránh rủi ro từ chuỗi cung ứng hạ tầng đang biến động.

Trong bối cảnh sự bất ổn tài chính lan rộng, một lựa chọn khác đang nổi lên là chấm dứt sự phụ thuộc hoàn toàn vào hạ tầng tính toán bên ngoài. Các mô hình AI thu nhỏ có khả năng chạy trực tiếp trên thiết bị của người dùng – không cần trung tâm dữ liệu hay nhà cung cấp đám mây – đang trở nên đủ tốt để trở thành một phương án thay thế khả thi và an toàn.

Multiverse Computing, một startup đến từ Tây Ban Nha, đang dẫn đầu xu hướng này bằng cách nén các mô hình ngôn ngữ lớn từ những tên tuổi như OpenAI, Meta, DeepSeek hay Mistral AI. Công ty vừa chính thức ra mắt ứng dụng CompactifAI cùng một cổng API chuyên dụng, cho phép các nhà phát triển tiếp cận và xây dựng ứng dụng dựa trên các mô hình đã được tối ưu hóa dung lượng mà không cần thông qua trung gian.

Điểm nhấn của hệ sinh thái này là Gilda, một mô hình siêu nhỏ được tích hợp trong ứng dụng chat, có khả năng vận hành hoàn toàn ngoại tuyến và cục bộ. Đối với người dùng cuối, đây là trải nghiệm AI tại biên (edge AI) thực thụ, nơi dữ liệu cá nhân không bao giờ rời khỏi thiết bị, đảm bảo quyền riêng tư tuyệt đối và không yêu cầu kết nối internet liên tục.

Tuy nhiên, việc vận hành cục bộ vẫn đòi hỏi thiết bị phải có đủ dung lượng RAM và bộ nhớ lưu trữ, điều mà các dòng điện thoại đời cũ thường gặp khó khăn. Để giải quyết vấn đề này, hệ thống điều phối mang tên Ash Nazg sẽ tự động chuyển đổi giữa xử lý tại chỗ và xử lý đám mây thông qua API, giúp trải nghiệm người dùng luôn mượt mà dù cấu hình phần cứng có sự khác biệt.

Mục tiêu thực sự của Multiverse Computing không chỉ dừng lại ở người dùng cá nhân mà tập trung trọng tâm vào phân khúc khách hàng doanh nghiệp. Cổng API tự phục vụ vừa ra mắt giúp các kỹ sư trực tiếp truy cập vào các mô hình nén với quyền kiểm soát và tính minh bạch cao, loại bỏ sự phụ thuộc vào các chợ ứng dụng như AWS Marketplace.

Việc giám sát mức độ sử dụng theo thời gian thực là một tính năng then chốt, giúp doanh nghiệp tối ưu hóa chi phí tính toán. Đây là lý do chính khiến nhiều đơn vị đang cân nhắc chuyển từ các mô hình ngôn ngữ lớn (LLM) cồng kềnh sang các lựa chọn nhỏ gọn hơn, vốn đã được các công ty như Mistral AI cải tiến để xử lý tốt cả tác vụ lập trình lẫn suy luận phức tạp.

Khoảng cách về năng lực giữa mô hình nén và LLM truyền thống đang dần được thu hẹp, minh chứng qua mô hình HyperNova 60B 2602 được phát triển từ mã nguồn mở của OpenAI. Multiverse Computing khẳng định mô hình này cung cấp phản hồi nhanh hơn với chi phí thấp hơn phiên bản gốc, đặc biệt hiệu quả trong các quy trình lập trình tự chủ (agentic coding workflows).

Khả năng vận hành độc lập với đám mây mở ra những cơ hội mới trong các lĩnh vực đặc thù như thiết bị bay không người lái (drones) hay vệ tinh, nơi kết nối mạng không ổn định. Đối với các chuyên gia làm việc trong môi trường nhạy cảm, một mô hình chạy cục bộ mang lại sự bảo mật dữ liệu và khả năng phục hồi vượt trội mà các giải pháp đám mây khó lòng đáp ứng.

Với danh sách khách hàng gồm những tên tuổi lớn như Bosch, Iberdrola và Ngân hàng Trung ương Canada, startup này đang khẳng định vị thế vững chắc trên thị trường. Sau khi huy động thành công 215 triệu USD ở vòng Series B, Multiverse Computing được kỳ vọng sẽ sớm hoàn tất vòng gọi vốn mới trị giá 500 triệu Euro, đưa định giá công ty vượt mốc 1,5 tỷ Euro.