LIÊN HỆ HOTLINE/ZALO: 0981.243.678

MiniMax M3: mô hình open-weight 1 triệu token thách thức các ông lớn AI
Khám phá MiniMax M3: Mô hình AI open-weight đột phá với khả năng tự chủ lập trình, cửa sổ 1 triệu token, đánh bại GPT-5.5 và Gemini 3.1 Pro cực kỳ ấn tượng.
Công ty AI Trung Quốc MiniMax vừa chính thức ra mắt M3, mô hình open-weight đầu tiên trên thế giới sở hữu sự kết hợp giữa khả năng lập trình vượt trội, cửa sổ ngữ cảnh lên đến 1 triệu token và khả năng xử lý đa phương thức bản địa. Trước đây, những thông số ấn tượng này thường chỉ xuất hiện trên các hệ thống đóng và trả phí đắt đỏ như GPT-5.5 hay Gemini 3.1 Pro. Điểm khác biệt lớn nhất của M3 nằm ở khả năng tự chủ (autonomy) đáng kinh ngạc; trong các thử nghiệm nội bộ, mô hình này có thể tự lập kế hoạch, gỡ lỗi và tự sửa đổi mã nguồn liên tục trong nhiều giờ mà không cần sự can thiệp của con người. Việc MiniMax quyết định mở trọng số mô hình không chỉ cung cấp một công cụ mạnh mẽ cho cộng đồng mà còn trực tiếp đe dọa vị thế độc tôn của các “ông lớn” trong ngành AI hiện nay.
Hiệu suất lập trình và khả năng xử lý tác vụ đại lý
Dữ liệu từ các bài kiểm tra tiêu chuẩn cho thấy MiniMax M3 đã tiến rất sát, thậm chí vượt qua một số mô hình độc quyền hàng đầu. Trên SWE-Bench Pro, một thước đo khắt khe về khả năng giải quyết các vấn đề phần mềm thực tế, M3 đạt mức điểm 59%, cao hơn cả GPT-5.5 và Gemini 3.1 Pro, chỉ xếp sau Opus 4.7. Đặc biệt, ở khả năng tìm kiếm web tự động trên BrowseComp, M3 ghi được 83.5 điểm, vượt qua con số 79.3 của Opus 4.7. Những kết quả này chứng minh rằng M3 không chỉ mạnh về lý thuyết mà còn cực kỳ hiệu quả trong các tác vụ thực thi thực tế.
Để đạt được sự tương đồng với quy trình làm việc của một lập trình viên chuyên nghiệp, MiniMax đã xây dựng một khung mô phỏng (simulator framework) đặc biệt. Khung này huấn luyện mô hình cách tinh chỉnh yêu cầu, thảo luận các phương án giải quyết và phản hồi dựa trên kết quả trung gian thay vì chỉ thực hiện các câu lệnh đơn lẻ. Cách tiếp cận này giúp M3 xử lý tốt các tác vụ cộng tác đa bước, cho phép nó duy trì sự tập trung và tính logic xuyên suốt các dự án dài hơi có độ phức tạp cao.
Khả năng tự chủ bền bỉ trong các thử nghiệm thực tế
Sức mạnh của M3 được thể hiện rõ nét qua ba thử nghiệm nội bộ về tính tự chủ. Trong thử nghiệm đầu tiên, mô hình đã tự mình tái hiện một bài báo khoa học về tinh chỉnh LLM trong gần 12 giờ liên tục mà không cần sự hỗ trợ từ con người, tạo ra 18 lần lưu mã (commits) và 23 biểu đồ chính xác. Ở thử nghiệm thứ hai, M3 được giao nhiệm vụ tối ưu hóa kernel tính toán cho GPU Nvidia Hopper – một công việc vốn tiêu tốn của các đội ngũ chuyên gia từ một đến hai tuần. Bắt đầu từ mức hiệu suất chỉ 7.6%, sau 147 lần thử nghiệm trong vòng 24 giờ, M3 đã đẩy hiệu suất phần cứng lên tới 71.3%, vượt qua cả khả năng của Opus 4.7 trong cùng điều kiện.
Thử nghiệm thứ ba mang tên PostTrainBench cho thấy M3 có thể tự động huấn luyện bốn mô hình cơ sở, từ khâu tổng hợp dữ liệu đến đánh giá và lặp lại quy trình. Khả năng kiên trì vượt qua các giai đoạn bế tắc kỹ thuật mà không bỏ cuộc giữa chừng là một bước tiến lớn. M3 không chỉ đơn thuần là một công cụ tạo văn bản, mà đã trở thành một đại lý AI (AI agent) thực thụ, có khả năng tư duy chiến lược và giải quyết các bài toán kỹ thuật chuyên sâu ở cấp độ chuyên gia.
Đột phá công nghệ với cơ chế MiniMax Sparse Attention
Nền tảng kỹ thuật giúp M3 xử lý được 1 triệu token với chi phí thấp chính là cơ chế MiniMax Sparse Attention (MSA). Thay vì tính toán mọi cặp token theo cách truyền thống gây tốn kém tài nguyên theo cấp số nhân, MSA chia bộ nhớ đệm (KV cache) thành các khối và chỉ lọc ra những khối thực sự liên quan đến truy vấn hiện tại. Điều này giúp giảm thiểu đáng kể khối lượng tính toán mà vẫn duy trì được độ chính xác của thông tin trong các văn bản dài hoặc các dự án mã nguồn khổng lồ.
Bên cạnh đó, MSA còn tối ưu hóa cách thức GPU truy xuất dữ liệu từ bộ nhớ. Thay vì đọc dữ liệu rải rác, mô hình xử lý các khối dữ liệu theo trình tự và gom nhóm các truy vấn cần cùng một khối dữ liệu để xử lý một lần. Kết quả là tốc độ xử lý câu lệnh đầu vào nhanh hơn 9 lần và tốc độ tạo phản hồi nhanh hơn 15 lần so với các phiên bản trước. Theo MiniMax, giải pháp này chạy nhanh hơn gấp 4 lần so với các lựa chọn mã nguồn mở tương đương hiện có trên thị trường, đồng thời chỉ tiêu tốn 1/20 tài nguyên tính toán trên mỗi token.
Mô hình huấn luyện đa phương thức và chính sách phát hành
M3 được huấn luyện ngay từ đầu với dữ liệu đa phương thức (multimodal) đan xen, nơi văn bản và hình ảnh được kết hợp chặt chẽ trong cùng một chuỗi dữ liệu. Sau khi tinh chỉnh quy trình xử lý, quy mô huấn luyện của mô hình đã đạt tới ngưỡng 100 nghìn tỷ token. Sự đầu tư này giúp M3 hiểu sâu sắc các cấu trúc dữ liệu phức tạp và có khả năng tương tác tự nhiên hơn. Hiện tại, người dùng có thể tiếp cận M3 thông qua API với mức giá linh hoạt, bắt đầu từ khoảng 20 USD mỗi tháng cho các gói dữ liệu lớn.
Điểm quan trọng nhất đối với cộng đồng công nghệ là việc MiniMax cam kết sẽ công bố trọng số mô hình (model weights) và báo cáo kỹ thuật chi tiết trên Hugging Face và GitHub trong thời gian tới. Đồng thời, ứng dụng hỗ trợ lập trình MiniMax Code cũng sẽ được chuyển sang dạng mã nguồn mở. Việc kết hợp giữa hiệu suất của một mô hình đóng hàng đầu và sự linh hoạt của một mô hình mở giúp M3 trở thành một đối trọng đáng gờm, mở ra cơ hội cho các doanh nghiệp tự triển khai và tùy chỉnh hệ thống AI cao cấp trên hạ tầng riêng của mình.
MiniMax M3 đã chứng minh rằng ranh giới giữa mô hình AI đóng và mở đang dần bị xóa nhòa nhờ những đột phá về kiến trúc và phương pháp huấn luyện. Với khả năng xử lý ngữ cảnh khổng lồ và tư duy lập trình tự chủ, đây là công cụ lý tưởng để các nhà phát triển tối ưu hóa quy trình làm việc và xây dựng các ứng dụng AI phức tạp. Bạn nên theo dõi sát sao các kho lưu trữ mã nguồn của MiniMax để sớm trải nghiệm và tích hợp mô hình này vào dự án thực tế ngay khi trọng số được giải phóng.

Liên hệ qua Zalo