Inception vừa chính thức công bố Mercury 2, mô hình ngôn ngữ lớn (LLM) đầu tiên trên thế giới kết hợp giữa khả năng suy luận chuyên sâu và kiến trúc khuếch tán ngôn ngữ (dLLM). Khác với các hệ thống phổ biến hiện nay vốn dựa trên cơ chế tự hồi quy (autoregressive), Mercury 2 mang lại hiệu suất cao gấp 5 lần, đồng thời phá vỡ các rào cản về độ trễ và chi phí đang kìm hãm việc triển khai AI trong thực tế. Hiện tại, người dùng đã có thể truy cập các mô hình Mercury 2 thông qua Inception API để tối ưu hóa các quy trình làm việc đòi hỏi tốc độ xử lý tức thì.
Hầu hết các mô hình lớn như GPT, Claude hay Gemini đều tạo văn bản theo cách tuần tự, nghĩa là dự đoán từng từ một một cách nối tiếp. Cách tiếp cận này có giới hạn về tốc độ vì quy trình sinh token bị ràng buộc bởi tính chất nối tiếp, đặc biệt khi độ sâu suy luận tăng lên sẽ khiến chi phí vận hành tăng cao và giảm khả năng phản hồi. Inception đã chọn một hướng đi khác biệt khi ứng dụng mô hình khuếch tán – kỹ thuật nền tảng của các hệ thống tạo hình ảnh và video hiện đại – vào lĩnh vực ngôn ngữ để tạo ra Mercury 2.
Thay vì dự đoán token tiếp theo trong một chuỗi, Mercury 2 bắt đầu bằng một bản phác thảo thô của toàn bộ nội dung đầu ra và tinh chỉnh nó thông qua quá trình khử nhiễu (denoising) song song trên nhiều token. Mỗi bước xử lý của mạng thần kinh sẽ sửa đổi và cải thiện nhiều token cùng lúc, giúp tạo ra nhiều giá trị hơn trong mỗi bước tính toán. Lợi thế về tốc độ này đến từ chính cấu trúc của mô hình thay vì phụ thuộc vào phần cứng chuyên dụng, đồng thời cho phép hệ thống tự sửa lỗi ngay trong quá trình tạo văn bản.
Dữ liệu thực tế cho thấy Mercury 2 đạt thông lượng đầu ra xấp xỉ 1.000 token mỗi giây, vượt xa các đối thủ cạnh tranh trực tiếp về tốc độ. Khi so sánh với các mô hình suy luận hàng đầu, Mercury 2 cho thấy khả năng vận hành nhanh hơn gấp nhiều lần trong khi vẫn duy trì chất lượng phản hồi tương đương. Khả năng này giúp các doanh nghiệp triển khai các ứng dụng AI quy mô lớn với chi phí tối ưu và trải nghiệm người dùng mượt mà hơn.
Dưới đây là bảng so sánh hiệu suất và điểm số của Mercury 2 trên các bài kiểm tra năng lực tiêu chuẩn:
| Tiêu chí / Bài kiểm tra | Kết quả của Mercury 2 | So sánh với đối thủ |
|---|---|---|
| Tốc độ đầu ra | ~1.000 token/giây | Gấp 10 lần Claude 4.5 Haiku (89 token/giây) |
| AIME 2025 | 91.1 | Hiệu suất tương đương GPT 5.2 Mini |
| GPQA | 73.6 | Khả năng suy luận khoa học chuyên sâu |
| IFBench | 71.3 | Độ chính xác trong việc tuân thủ chỉ dẫn |
| LiveCodeBench | 67.3 | Khả năng lập trình thực tế |
Việc ứng dụng Mercury 2 mang lại lợi thế rõ rệt cho các hệ thống đại lý AI (agent loops), giúp giảm thiểu độ trễ tích lũy trong các quy trình làm việc nhiều bước như lập trình tự động hay xử lý sự cố hệ thống. Trong các ứng dụng về tìm kiếm và giọng nói, mô hình này cho phép tích hợp khả năng suy luận vào các khung thời gian thực khắt khe, tạo ra cảm giác tương tác tự nhiên cho trợ lý ảo hoặc tổng đài bán hàng. Ngoài ra, tính năng tinh chỉnh lặp lại còn hỗ trợ tạo ra các phản hồi có cấu trúc ổn định, giúp việc điều phối tác vụ và gọi hàm (function calling) trở nên tin cậy hơn.
Đội ngũ đứng sau Inception bao gồm các nhà nghiên cứu từ Stanford, UCLA và Cornell, những người đã đóng góp vào các kỹ thuật AI nền tảng như Flash Attention và Direct Preference Optimization. CEO Stefano Ermon cũng là đồng sáng chế các phương pháp khuếch tán đang được sử dụng rộng rãi trên toàn cầu. Với sự hỗ trợ từ các quỹ đầu tư lớn như Menlo Ventures, Mayfield và các chuyên gia đầu ngành như Andrew Ng hay Andrej Karpathy, Inception đang đặt ra những tiêu chuẩn mới cho thế hệ mô hình ngôn ngữ tiếp theo.
Sự xuất hiện của Mercury 2 đánh dấu một bước ngoặt quan trọng khi chuyển dịch từ việc tối ưu hóa các kiến trúc cũ sang việc xây dựng một nền tảng công nghệ hoàn toàn mới dựa trên cơ chế khuếch tán. Bằng cách giải quyết đồng thời ba yếu tố then chốt là tốc độ, chi phí và chất lượng, Inception đang mở ra những khả năng ứng dụng AI thực tế mà trước đây vốn bị giới hạn bởi công nghệ cũ. Các nhà phát triển và doanh nghiệp quan tâm có thể bắt đầu tích hợp Mercury 2 ngay hôm nay để trải nghiệm sức mạnh của mô hình suy luận nhanh nhất thế giới.