Vào thứ Sáu, công ty đã tiết lộ o3, phiên bản kế nhiệm của mô hình “suy luận” o1 được phát hành hồi đầu năm nay. o3 là một họ mô hình – tương tự như o1. Có o3 và o3-mini, một mô hình nhỏ hơn, được tinh chỉnh cho các tác vụ cụ thể.
OpenAI đưa ra tuyên bố đáng chú ý rằng o3, ít nhất trong một số điều kiện nhất định, đã tiến gần đến Trí tuệ nhân tạo tổng quát (AGI) – kèm theo những lưu ý quan trọng. Chi tiết hơn về điều này ở bên dưới.
Tại sao lại gọi mô hình mới là o3, chứ không phải o2? Vấn đề thương hiệu có thể là nguyên nhân. Theo The Information, OpenAI đã bỏ qua o2 để tránh xung đột tiềm ẩn với nhà cung cấp viễn thông Anh Quốc O2. Giám đốc điều hành Sam Altman phần nào đã xác nhận điều này trong buổi phát trực tiếp sáng nay. Quả là một thế giới kỳ lạ, phải không?
Cả o3 và o3-mini đều chưa được phát hành rộng rãi, nhưng các nhà nghiên cứu an toàn có thể đăng ký xem trước o3-mini bắt đầu từ hôm nay. Bản xem trước o3 sẽ đến sau đó; OpenAI không nêu rõ thời điểm cụ thể. Altman cho biết kế hoạch là ra mắt o3-mini vào cuối tháng 1 và sau đó là o3.
Điều này có phần mâu thuẫn với những tuyên bố gần đây của ông. Trong một cuộc phỏng vấn tuần này, Altman nói rằng, trước khi OpenAI phát hành các mô hình suy luận mới, ông muốn có một khung kiểm tra liên bang để hướng dẫn việc giám sát và giảm thiểu rủi ro của các mô hình đó.
Và có những rủi ro. Các nhà kiểm tra an toàn AI đã phát hiện ra rằng khả năng suy luận của o1 khiến nó cố gắng đánh lừa người dùng ở tỷ lệ cao hơn so với các mô hình thông thường, “phi suy luận” – hoặc các mô hình AI hàng đầu từ Meta, Anthropic và Google. Có khả năng o3 cố gắng đánh lừa ở tỷ lệ cao hơn cả phiên bản tiền nhiệm; chúng ta sẽ tìm hiểu khi các đối tác nhóm đỏ của OpenAI công bố kết quả kiểm tra của họ.
OpenAI cho biết họ đang sử dụng một kỹ thuật mới, “căn chỉnh thận trọng”, để căn chỉnh các mô hình như o3 với các nguyên tắc an toàn của mình. (o1 cũng được căn chỉnh theo cách tương tự.) Công ty đã trình bày chi tiết công việc của mình trong một nghiên cứu mới.
Các bước suy luận
Không giống như hầu hết các AI, các mô hình suy luận như o3 tự kiểm tra thực tế, giúp chúng tránh được một số cạm bẫy thường gặp ở các mô hình khác.
Quá trình kiểm tra thực tế này gây ra một số độ trễ. o3, giống như o1 trước đó, mất nhiều thời gian hơn một chút – thường là vài giây đến vài phút – để đưa ra giải pháp so với một mô hình phi suy luận điển hình. Ưu điểm? Nó có xu hướng đáng tin cậy hơn trong các lĩnh vực như vật lý, khoa học và toán học.
o3 được huấn luyện để “suy nghĩ” trước khi phản hồi thông qua cái mà OpenAI gọi là “chuỗi suy nghĩ riêng tư”. Mô hình có thể suy luận thông qua một nhiệm vụ và lập kế hoạch trước, thực hiện một loạt hành động trong một khoảng thời gian dài giúp nó tìm ra giải pháp.
Trong thực tế, với một lời nhắc, o3 sẽ tạm dừng trước khi trả lời, xem xét một số lời nhắc liên quan và “giải thích” lý do của nó trên đường đi. Sau một thời gian, mô hình sẽ tóm tắt những gì nó cho là câu trả lời chính xác nhất.
Điều mới mẻ ở o3 là khả năng “điều chỉnh” thời gian suy luận. Các mô hình có thể được đặt thành mức tính toán thấp, trung bình hoặc cao (tức là thời gian suy nghĩ). Mức tính toán càng cao, o3 càng hoạt động tốt hơn trên các tác vụ.
Điểm chuẩn và AGI
Một câu hỏi lớn trước ngày hôm nay là liệu OpenAI có tuyên bố rằng các mô hình mới nhất của họ đang tiến gần đến AGI hay không.
AGI, viết tắt của “trí tuệ nhân tạo tổng quát”, đề cập đến AI có thể thực hiện bất kỳ nhiệm vụ nào mà con người có thể làm. OpenAI có định nghĩa riêng: “các hệ thống tự chủ cao vượt trội hơn con người trong hầu hết các công việc có giá trị kinh tế.”
Đạt được AGI sẽ là một tuyên bố táo bạo. Và nó cũng mang lại sức nặng về mặt hợp đồng cho OpenAI. Theo các điều khoản trong thỏa thuận với đối tác thân thiết và nhà đầu tư Microsoft, một khi OpenAI đạt đến AGI, họ sẽ không còn nghĩa vụ phải cung cấp cho Microsoft quyền truy cập vào các công nghệ tiên tiến nhất của mình (chính là những công nghệ đáp ứng định nghĩa AGI của OpenAI).
Theo một điểm chuẩn, OpenAI đang dần tiến gần hơn đến AGI. Trên ARC-AGI, một bài kiểm tra được thiết kế để đánh giá xem liệu một hệ thống AI có thể tiếp thu các kỹ năng mới một cách hiệu quả bên ngoài dữ liệu mà nó được đào tạo hay không, o3 đã đạt được điểm số 87,5% ở cài đặt tính toán cao. Ở mức thấp nhất (ở cài đặt tính toán thấp), mô hình này đã tăng gấp ba hiệu suất của o1.
Đúng là cài đặt tính toán cao cực kỳ tốn kém – theo François Chollet, đồng tác giả của ARC-AGI, chi phí lên tới hàng nghìn đô la cho mỗi tác vụ.
OpenAI cho biết họ sẽ hợp tác với tổ chức đứng sau ARC-AGI để xây dựng thế hệ tiếp theo của điểm chuẩn này.
Tất nhiên, ARC-AGI có những hạn chế – và định nghĩa về AGI của nó chỉ là một trong số rất nhiều định nghĩa.
Trên các điểm chuẩn khác, o3 vượt xa đối thủ.
Mô hình này vượt trội hơn o1 22,8 điểm phần trăm trên SWE-Bench Verified, một điểm chuẩn tập trung vào các tác vụ lập trình, và đạt được xếp hạng Codeforces – một thước đo khác về kỹ năng lập trình – là 2727. (Xếp hạng 2400 đặt một kỹ sư ở mức phần trăm thứ 99,2.) o3 đạt điểm 96,7% trong Kỳ thi Toán học Mỹ năm 2024, chỉ bỏ lỡ một câu hỏi, và đạt 87,7% trên GPQA Diamond, một bộ câu hỏi sinh học, vật lý và hóa học cấp sau đại học. Cuối cùng, o3 thiết lập kỷ lục mới trên điểm chuẩn Frontier Math của EpochAI, giải quyết 25,2% vấn đề; không có mô hình nào khác vượt quá 2%.
Tất nhiên, những tuyên bố này phải được xem xét một cách thận trọng. Chúng đến từ các đánh giá nội bộ của OpenAI. Chúng ta sẽ cần chờ xem mô hình này sẽ được đánh giá như thế nào từ khách hàng và các tổ chức bên ngoài trong tương lai.
Một xu hướng
Sau khi OpenAI phát hành loạt mô hình suy luận đầu tiên, đã có một sự bùng nổ các mô hình suy luận từ các công ty AI đối thủ – bao gồm cả Google. Đầu tháng 11, DeepSeek, một công ty nghiên cứu AI được tài trợ bởi các nhà giao dịch định lượng, đã ra mắt bản xem trước mô hình suy luận đầu tiên của mình, DeepSeek-R1. Cùng tháng đó, nhóm Qwen của Alibaba đã công bố thứ mà họ tuyên bố là đối thủ “mở” đầu tiên của o1 (theo nghĩa là nó có thể được tải xuống, tinh chỉnh và chạy cục bộ).
Điều gì đã mở ra làn sóng mô hình suy luận? Một phần là việc tìm kiếm các phương pháp mới để tinh chỉnh AI tạo sinh. Như TechCrunch đã đưa tin gần đây, các kỹ thuật “brute force” để mở rộng quy mô mô hình không còn mang lại những cải tiến như trước đây.
Không phải ai cũng tin rằng mô hình suy luận là con đường tốt nhất phía trước. Chúng có xu hướng đắt đỏ, do lượng lớn sức mạnh tính toán cần thiết để chạy chúng. Và mặc dù chúng đã hoạt động tốt trên các điểm chuẩn cho đến nay, nhưng không rõ liệu các mô hình suy luận có thể duy trì tốc độ tiến bộ này hay không.
Điều thú vị là việc phát hành o3 diễn ra khi một trong những nhà khoa học tài năng nhất của OpenAI rời đi. Alec Radford, tác giả chính của bài báo học thuật đã khởi xướng “chuỗi GPT” của các mô hình AI tạo sinh của OpenAI (tức là GPT-3, GPT-4, v.v.), đã thông báo tuần này rằng ông sẽ rời đi để theo đuổi nghiên cứu độc lập.