GPT-5.4 chính thức ra mắt vào ngày 5 tháng 3 năm 2026, được định vị là mô hình chủ lực của OpenAI cho các công việc chuyên môn, hợp nhất khả năng lập trình và suy luận vào một hệ thống đa năng duy nhất. Sáu tuần sau đó, vào ngày 16 tháng 4, Anthropic đáp trả bằng Claude Opus 4.7. Khác với cách tiếp cận của đối thủ, Anthropic tập trung vào khả năng tự trị trong kỹ thuật (long-horizon engineering) và duy trì sự mạch lạc trong những phiên làm việc kéo dài – nơi mà hầu hết các tác vụ tự động (agents) thường gặp lỗi.
Việc so sánh trực tiếp hai mô hình này ở thời điểm hiện tại là vô cùng cần thiết để doanh nghiệp và lập trình viên tối ưu hóa quy trình làm việc. Tuy nhiên, cần lưu ý rằng các số liệu đối đầu dưới đây phần lớn dựa trên báo cáo từ nhà sản xuất do Claude Opus 4.7 vừa mới phát hành. Đây là điểm khởi đầu để đánh giá, không phải là phán quyết cuối cùng cho mọi trường hợp sử dụng. Nếu nhu cầu chính của bạn là xử lý tài liệu khối lượng lớn hoặc phân tích pháp lý dài hạn với chi phí thấp, Gemini 3.1 Pro với cửa sổ ngữ cảnh 2 triệu token vẫn là một lựa chọn thay thế đáng cân nhắc.
Vị thế mô hình và mục đích sử dụng
OpenAI định vị GPT-5.4 là một mô hình tổng quát thống nhất. Nó hấp thụ toàn bộ khả năng lập trình từng tồn tại trong các phiên bản chuyên biệt trước đó, giúp nhà phát triển không còn phải phân chia yêu cầu đến các điểm cuối (endpoints) khác nhau tùy theo loại tác vụ. Một mô hình, một điểm cuối cho mọi nhiệm vụ là triết lý mà OpenAI theo đuổi để đơn giản hóa trải nghiệm người dùng.
Ngược lại, mục tiêu của Claude Opus 4.7 hẹp và sâu hơn: tối ưu hóa cho lập trình, tác vụ tự trị, điều khiển máy tính và quy trình làm việc của doanh nghiệp. Điểm khác biệt cốt lõi nằm ở khả năng tự trị dài hạn. Bạn có thể giao một nhiệm vụ kỹ thuật khó và tin tưởng rằng mô hình sẽ tự phát hiện, sửa lỗi trước khi báo cáo kết quả. Đáng chú ý, dù Opus 4.7 là mô hình mạnh nhất được phổ biến rộng rãi của Anthropic, họ vẫn còn phiên bản Claude Mythos Preview dành riêng cho các quy trình an ninh mạng phòng thủ.
Sự phân hóa này trở nên rõ rệt nhất trong các phiên làm việc lập trình kéo dài hoặc các chuỗi xử lý (pipelines) kết nối hàng chục công cụ khác nhau. Trong khi GPT-5.4 cố gắng làm tốt mọi thứ, Opus 4.7 tập trung vào việc trở thành một “kỹ sư tự trị” thực thụ trong môi trường doanh nghiệp phức tạp.
Quy trình làm việc với mã nguồn và tác vụ tự trị
Trong các bài kiểm tra lập trình ở cấp độ kho lưu trữ (repository-level), Opus 4.7 đang dẫn trước dựa trên các tiêu chuẩn mà nhà sản xuất công bố. Mô hình này giới thiệu tính năng tự xác minh đầu ra (self-output verification), nghĩa là nó sẽ kiểm tra lại mã nguồn mình vừa viết trước khi hiển thị. Khả năng kháng lặp (loop resistance) của Opus 4.7 cũng được đánh giá cao, giúp giảm thiểu tình trạng AI bị kẹt trong một vòng lặp giải quyết vấn đề duy nhất suốt hàng chục phút.
GPT-5.4 lại chiếm ưu thế ở bài kiểm tra Terminal-Bench 2.0 với điểm số 75,1% so với 69,4% của đối thủ. Một tính năng đột phá của OpenAI là Suy nghĩ tương tác (Interactive Thinking), cho phép người dùng can thiệp và điều chỉnh kế hoạch ngay trong quá trình mô hình đang suy luận. Nếu nhận thấy AI đang đi chệch hướng, bạn có thể định hướng lại ngay lập tức thay vì đợi nó hoàn thành toàn bộ câu trả lời.
Mặc dù khoảng cách 6 điểm trên SWE-bench (tiêu chuẩn đánh giá kỹ thuật phần mềm) là một tín hiệu quan trọng cho thấy ưu thế của Claude trong việc xử lý lỗi phần mềm thực tế, nhưng sự lựa chọn vẫn phụ thuộc vào việc bạn cần một công cụ tự chạy hoàn toàn hay một trợ lý cho phép tương tác sâu trong quá trình tư duy.
Cửa sổ ngữ cảnh và xử lý dữ liệu dài
Cả hai mô hình đều hỗ trợ cửa sổ ngữ cảnh lên đến 1 triệu token, nhưng sự khác biệt nằm ở cách tính phí và hiệu suất thực tế khi xử lý khối lượng dữ liệu khổng lồ này:
1. Cấu trúc chi phí linh hoạt: Opus 4.7 áp dụng mức giá cố định trên toàn bộ cửa sổ ngữ cảnh. Ngược lại, GPT-5.4 có ngưỡng 272.000 token; nếu vượt qua cột mốc này, toàn bộ phiên làm việc sẽ bị tính giá theo biểu phí ngữ cảnh dài, không chỉ riêng phần token vượt trội. 2. Hiệu suất mã hóa (Tokenizer): Bộ mã hóa của Opus 4.7 có thể chuyển đổi cùng một đoạn văn bản thành số lượng token nhiều hơn tới 35% so với phiên bản 4.6. Điều này đồng nghĩa với việc chi phí thực tế cho mỗi tác vụ có thể tăng lên dù giá trên mỗi token không đổi. 3. Độ tin cậy của dữ liệu: Trong các thử nghiệm độc lập, Opus 4.7 đạt điểm nhất quán cao nhất (0,715) trên sáu mô-đun nghiên cứu. Đối với các hệ thống RAG (Truy xuất thông tin tăng cường) lấp đầy giới hạn 1 triệu token, Claude cho thấy khả năng duy trì sự tập trung tốt hơn vào các chi tiết nhỏ nằm giữa tài liệu.
Sử dụng công cụ và tương tác đa phương thức
Khả năng tương tác với môi trường của hai mô hình có sự phân hóa rõ rệt tùy thuộc vào không gian làm việc là màn hình máy tính hay trình duyệt web.
| Tiêu chuẩn đánh giá | Claude Opus 4.7 | GPT-5.4 (Pro) | Ghi chú |
|---|---|---|---|
| OSWorld-Verified | 78,0% | 75,0% | Sử dụng máy tính để bàn (Desktop) |
| BrowseComp | 79,3% | 89,3% | Nghiên cứu web và suy luận đa bước |
| Độ phân giải hình ảnh | 2.576 px | Thấp hơn | Opus 4.7 xử lý ảnh độ phân giải cao hơn 3 lần |
Nâng cấp đáng chú ý nhất của Opus 4.7 về đa phương thức là thị giác máy tính. Độ nhạy bén thị giác đã nhảy vọt từ 54,5% lên 98,5% trong các bài kiểm tra bảo mật, cho phép nó đọc hiểu các sơ đồ kỹ thuật và ảnh chụp màn hình cực kỳ chi tiết. Trong khi đó, GPT-5.4 tối ưu hóa kiến trúc công cụ bằng cách tải định nghĩa theo yêu cầu, giúp giảm bớt gánh nặng token khi làm việc trong các hệ sinh thái có hàng ngàn API khác nhau.
Khả năng điều hướng và độ tin cậy
Claude Opus 4.7 có xu hướng thực hiện chỉ dẫn một cách nghĩa đen. Nó sẽ không tự ý tổng quát hóa hoặc suy luận ra những yêu cầu mà bạn không trực tiếp đưa ra. Điều này mang lại sự ổn định cao trong các chuỗi tác vụ tự trị dài, nơi mà sự “sáng tạo quá mức” của AI có thể dẫn đến sai sót dây chuyền. Đội ngũ kỹ thuật tại Ramp ghi nhận rằng họ cần ít sự hướng dẫn từng bước hơn khi dùng Opus 4.7 trong các quy trình đa công cụ.
Ngược lại, khả năng điều hướng của GPT-5.4 tập trung vào tính linh hoạt. Thông qua Suy nghĩ tương tác, mô hình này phản ứng tốt hơn với các “hợp đồng đầu ra” (output contracts) rõ ràng và cho phép người dùng nắn chỉnh kết quả theo thời gian thực. OpenAI chú trọng vào việc làm cho mô hình trở nên dễ bảo hơn thông qua đối thoại.
Về mặt an toàn, Anthropic thừa nhận Opus 4.7 đã cải thiện khả năng chống tấn công prompt (prompt injection) nhưng lại có sự thụt lùi nhẹ trong việc từ chối đưa ra lời khuyên quá chi tiết về các chất bị kiểm soát. Nhìn chung, Opus 4.7 được đánh giá là đáng tin cậy nhưng vẫn cần sự giám sát của con người trong các tình huống nhạy cảm.
Hiệu suất qua các bài kiểm tra thực tế (Benchmark)
Các con số benchmark dưới đây giúp hình dung năng lực tương đối, nhưng bạn nên thử nghiệm trên dữ liệu thực tế của mình trước khi đưa ra quyết định cuối cùng.
| Bài kiểm tra (Benchmark) | Claude Opus 4.7 | GPT-5.4 | Đặc điểm nổi bật |
|---|---|---|---|
| SWE-bench Pro | 64,3% | 57,7% | Khả năng giải quyết lỗi phần mềm thực tế |
| GPQA Diamond | 94,2% | 94,4% | Suy luận khoa học trình độ chuyên gia |
| MCP-Atlas | 77,3% | 68,1% | Sử dụng công cụ trên nhiều dịch vụ kết nối |
| Finance Agent v1.1 | 64,4% | 61,5% | Tác vụ nghiên cứu tài chính ngữ cảnh dài |
Kết quả cho thấy Claude Opus 4.7 chiếm ưu thế trong các nhiệm vụ đòi hỏi kiến thức chuyên môn sâu và sử dụng công cụ phức tạp. Trong khi đó, GPT-5.4 vẫn duy trì vị thế dẫn đầu ở các bài kiểm tra về kiến thức tổng quát và khả năng điều hướng web tự trị. Sự chênh lệch thường chỉ nằm ở mức một chữ số, cho thấy cuộc đua giữa hai gã khổng lồ đang ở giai đoạn bám đuổi quyết liệt.
Cấu trúc chi phí và giá thành API
Hiểu rõ cách tính phí sẽ giúp doanh nghiệp tiết kiệm hàng ngàn USD mỗi tháng, đặc biệt khi quy mô sử dụng tăng lên:
- Tác vụ ngữ cảnh ngắn (<100K token): GPT-5.4 là người chiến thắng tuyệt đối về giá. Chi phí cho một yêu cầu 100K token đầu vào và 10K token đầu ra của GPT-5.4 chỉ khoảng 0,40 USD, trong khi Opus 4.7 tiêu tốn khoảng 0,75 USD.
- Ngưỡng 272K token của OpenAI: Đây là “điểm bẫy” về giá. Khi vượt qua ngưỡng này, GPT-5.4 tính giá cao hơn cho toàn bộ phiên, khiến tổng chi phí lúc này (ví dụ ở mức 500K token) tương đương với mức giá phẳng của Opus 4.7.
- Tiết kiệm qua Caching: Cả hai nền tảng đều cung cấp mức giảm giá tới 90% cho các token đầu vào đã được lưu vào bộ nhớ đệm (cached). Đây là đòn bẩy tài chính lớn nhất cho các ứng dụng thường xuyên truy vấn trên một tập dữ liệu cố định.
- Chi phí công cụ bổ sung: Cần lưu ý các chi phí ẩn như phí tìm kiếm web (10 USD/1.000 lượt tìm kiếm trên Anthropic) hoặc phí lưu trữ tệp tin trên OpenAI.
Kết luận
Việc lựa chọn giữa Claude Opus 4.7 và GPT-5.4 không phụ thuộc vào việc mô hình nào “thông minh hơn”, mà phụ thuộc vào tính chất công việc của bạn. Hãy chọn Claude Opus 4.7 nếu bạn ưu tiên lập trình phần mềm tự trị, cần xử lý hình ảnh kỹ thuật độ phân giải cao hoặc thường xuyên làm việc với ngữ cảnh trên 272.000 token. Ngược lại, hãy chọn GPT-5.4 nếu quy trình của bạn dựa nhiều vào nghiên cứu web, ưu tiên tối ưu chi phí cho các tác vụ ngắn và cần sự can thiệp trực tiếp vào quá trình suy luận của AI.
Câu hỏi thường gặp
1. Mô hình nào lập trình tốt hơn ở thời điểm hiện tại?
Dựa trên SWE-bench Pro, Claude Opus 4.7 đang dẫn trước với khả năng tự xác minh mã nguồn và giải quyết lỗi phần mềm phức tạp. Tuy nhiên, GPT-5.4 vẫn rất mạnh trong việc tương tác với terminal và điều chỉnh mã nguồn theo ý muốn người dùng thông qua Interactive Thinking.
2. Tại sao chi phí của GPT-5.4 lại thay đổi đột ngột khi dùng ngữ cảnh dài?
OpenAI áp dụng cơ chế tái định giá theo phiên. Khi tổng lượng token đầu vào vượt quá ngưỡng 272.000, hệ thống sẽ áp dụng mức giá cao hơn cho toàn bộ yêu cầu đó thay vì chỉ tính phí phần vượt trội, điều này khiến chi phí tăng vọt nếu bạn không kiểm soát tốt độ dài prompt.
3. Tôi có cần viết lại prompt khi chuyển từ Claude 4.6 sang 4.7 không?
Có. Vì Opus 4.7 hiểu chỉ dẫn một cách nghĩa đen hơn và có bộ mã hóa token mới, các prompt cũ có thể không mang lại hiệu quả tối ưu hoặc tiêu tốn nhiều token hơn dự kiến. Anthropic khuyến nghị nên tinh chỉnh lại các yêu cầu để tận dụng tối đa khả năng tự trị của phiên bản mới.