AI phát hiện lỗ hổng: Tăng cường phòng thủ mạng

Trong bối cảnh an ninh mạng ngày càng phức tạp, khi các mối đe dọa kỹ thuật số liên tục tiến hóa và kẻ tấn công cũng đang tận dụng sức mạnh của trí tuệ nhân tạo (AI), câu hỏi đặt ra cho các nhà phòng thủ là: Làm thế nào để chúng ta không bị bỏ lại phía sau? Từ những nghiên cứu chuyên sâu và kinh nghiệm thực tiễn, chúng ta đang chứng kiến một bước ngoặt quan trọng trong tác động của AI đối với an ninh mạng. Các mô hình AI hiện nay không còn chỉ dừng lại ở lý thuyết mà đã trở thành công cụ hữu ích trong thực tiễn, đặc biệt là trong các tác vụ an ninh mạng.

Trước đây, khả năng của các mô hình AI trong việc giải quyết các thách thức an ninh mạng nâng cao còn hạn chế. Tuy nhiên, trong khoảng một năm trở lại đây, một sự thay đổi đáng kể đã diễn ra. Chúng ta đã chứng kiến sự đầu tư mạnh mẽ vào việc cải thiện khả năng của các mô hình AI, như Claude, để hỗ trợ các nhà phòng thủ phát hiện, phân tích và khắc phục lỗ hổng trong mã nguồn và hệ thống đã triển khai. Điều này cho phép Claude Sonnet 4.5 sánh ngang hoặc thậm chí vượt trội hơn Claude Opus 4.1 – mô hình tiên tiến mới ra mắt chỉ hai tháng trước – trong việc phát hiện lỗ hổng mã nguồn và các kỹ năng an ninh mạng khác. Việc áp dụng và thử nghiệm AI sẽ là chìa khóa để các nhà phòng thủ có thể bắt kịp tốc độ phát triển của các mối đe dọa.

Sự chuyển mình của AI trong an ninh mạng

Trong nhiều năm, đội ngũ của chúng tôi đã theo dõi cẩn thận các khả năng liên quan đến an ninh mạng của các mô hình AI. Ban đầu, các mô hình này chưa thực sự mạnh mẽ cho các khả năng nâng cao và có ý nghĩa. Tuy nhiên, như đã đề cập, mọi thứ đã thay đổi đáng kể. Chúng tôi đã chứng minh rằng các mô hình có thể tái hiện một trong những cuộc tấn công mạng tốn kém nhất lịch sử – vụ vi phạm dữ liệu Equifax năm 2017 – trong môi trường mô phỏng. Claude cũng đã tham gia các cuộc thi an ninh mạng và vượt trội hơn các đội ngũ con người trong một số trường hợp, đồng thời giúp chúng tôi khám phá và vá lỗi các lỗ hổng trong chính mã nguồn của mình trước khi phát hành.

Trong cuộc thi DARPA AI Cyber Challenge mùa hè này, các đội đã sử dụng LLM (bao gồm cả Claude) để xây dựng “hệ thống suy luận mạng” nhằm kiểm tra hàng triệu dòng mã để tìm lỗ hổng cần vá. Ngoài các lỗ hổng được chèn sẵn, các đội còn tìm thấy (và đôi khi vá) các lỗ hổng chưa được khám phá trước đó. Vượt ra ngoài khuôn khổ cuộc thi, các phòng thí nghiệm tiên phong khác hiện đang áp dụng các mô hình để phát hiện và báo cáo các lỗ hổng mới.

Đồng thời, chúng tôi cũng phát hiện và ngăn chặn các tác nhân đe dọa trên nền tảng của mình đã lợi dụng AI để mở rộng quy mô hoạt động. Đội ngũ Safeguards của chúng tôi gần đây đã phát hiện (và ngăn chặn) một trường hợp “vibe hacking”, trong đó một tội phạm mạng đã sử dụng Claude để xây dựng một kế hoạch tống tiền dữ liệu quy mô lớn mà trước đây sẽ cần cả một đội ngũ người thực hiện. Safeguards cũng đã phát hiện và chống lại việc Claude bị sử dụng trong các hoạt động gián điệp ngày càng phức tạp, bao gồm cả việc nhắm mục tiêu vào cơ sở hạ tầng viễn thông quan trọng, bởi một tác nhân có đặc điểm nhất quán với các hoạt động APT của Trung Quốc. Tất cả những bằng chứng này dẫn chúng tôi đến nhận định rằng đây là một bước ngoặt quan trọng trong hệ sinh thái mạng, và sự tiến bộ từ đây có thể diễn ra rất nhanh hoặc việc sử dụng AI có thể tăng trưởng rất nhanh chóng.

Claude Sonnet 4.5: Bước đột phá cho phòng thủ mạng

Khi các LLM tăng về kích thước, “khả năng mới nổi” – những kỹ năng không rõ ràng ở các mô hình nhỏ hơn và không nhất thiết là mục tiêu rõ ràng của quá trình đào tạo mô hình – bắt đầu xuất hiện. Thực tế, khả năng của Claude trong việc thực hiện các tác vụ an ninh mạng như tìm kiếm và khai thác các lỗ hổng phần mềm trong các thử thách Capture-the-Flag (CTF) là những sản phẩm phụ của việc phát triển các trợ lý AI hữu ích nói chung. Tuy nhiên, chúng tôi không muốn chỉ dựa vào sự tiến bộ chung của mô hình để trang bị tốt hơn cho các nhà phòng thủ. Nhận thấy tính cấp bách của thời điểm hiện tại trong sự phát triển của AI và an ninh mạng, chúng tôi đã dành riêng các nhà nghiên cứu để làm cho Claude giỏi hơn trong các kỹ năng chính như khám phá lỗ hổng mã nguồn và vá lỗi.

Kết quả của công việc này được phản ánh trong Claude Sonnet 4.5. Mô hình này tương đương hoặc vượt trội hơn Claude Opus 4.1 trong nhiều khía cạnh của an ninh mạng, đồng thời ít tốn kém hơn và nhanh hơn. Để kiểm tra hiệu quả nghiên cứu, chúng tôi đã chạy các đánh giá theo tiêu chuẩn ngành. Một trong những đánh giá mà chúng tôi theo dõi trong hơn một năm là Cybench, một bộ tiêu chuẩn được rút ra từ các thử thách của cuộc thi CTF. Trên đánh giá này, chúng tôi thấy sự cải thiện đáng kinh ngạc từ Claude Sonnet 4.5, không chỉ so với Claude Sonnet 4, mà còn so với các mô hình Claude Opus 4 và 4.1. Điều đáng chú ý nhất là Sonnet 4.5 đạt được xác suất thành công cao hơn với một lần thử cho mỗi tác vụ so với Opus 4.1 khi được cấp mười lần thử cho mỗi tác vụ. Các thử thách trong đánh giá này phản ánh các quy trình làm việc khá phức tạp, kéo dài. Ví dụ, một thử thách liên quan đến việc phân tích lưu lượng mạng, trích xuất phần mềm độc hại từ lưu lượng đó, và dịch ngược, giải mã phần mềm độc hại. Chúng tôi ước tính rằng một người có kỹ năng sẽ mất ít nhất một giờ, và có thể lâu hơn nhiều; Claude chỉ mất 38 phút để giải quyết. Khi chúng tôi cung cấp cho Claude Sonnet 4.5 10 lần thử trong đánh giá Cybench, nó thành công trên 76.5% các thử thách.

Trong một đánh giá bên ngoài khác, chúng tôi đã đánh giá Claude Sonnet 4.5 trên CyberGym, một bộ tiêu chuẩn đánh giá khả năng của các tác nhân trong việc (1) tìm kiếm các lỗ hổng (đã được phát hiện trước đó) trong các dự án phần mềm mã nguồn mở thực tế dựa trên mô tả cấp cao về điểm yếu, và (2) khám phá các lỗ hổng mới (chưa được phát hiện trước đó). Claude Sonnet 4.5 đạt điểm cao hơn đáng kể so với cả Claude Sonnet 4 hoặc Claude Opus 4. Khi sử dụng cùng các ràng buộc chi phí như bảng xếp hạng công khai của CyberGym (tức là giới hạn 2 đô la cho các truy vấn API LLM cho mỗi lỗ hổng), chúng tôi thấy rằng Sonnet 4.5 đạt được điểm số mới nhất trong lĩnh vực là 28.9%. Đặc biệt, Sonnet 4.5 khám phá các lỗ hổng mới trong 5% các trường hợp, và bằng cách lặp lại thử nghiệm 30 lần, nó khám phá các lỗ hổng mới trong hơn 33% các dự án.

Từ phát hiện đến khắc phục: AI định hình tương lai an ninh mạng

Ngoài việc phát hiện, chúng tôi cũng đang tiến hành nghiên cứu sơ bộ về khả năng của Claude trong việc tạo và xem xét các bản vá lỗi khắc phục lỗ hổng. Vá lỗi là một tác vụ khó hơn việc tìm kiếm chúng, bởi vì mô hình phải thực hiện các thay đổi chính xác để loại bỏ lỗ hổng mà không làm thay đổi chức năng ban đầu. Trong thử nghiệm của chúng tôi, 15% các bản vá do Claude tạo ra được đánh giá là tương đương về mặt ngữ nghĩa với các bản vá do con người viết. Phân tích thủ công một mẫu các bản vá có điểm số cao nhất cho thấy chúng hoàn toàn giống về chức năng với các bản vá tham chiếu đã được hợp nhất vào phần mềm mã nguồn mở. Công việc này tiết lộ một mô hình nhất quán với những phát hiện rộng hơn của chúng tôi: Claude phát triển các kỹ năng liên quan đến an ninh mạng khi nó cải thiện nói chung.

Để đảm bảo AI thực sự hữu ích trong thế giới thực, chúng tôi đã hợp tác với các đối tác đáng tin cậy. Nidhi Aggarwal, Giám đốc sản phẩm của HackerOne, cho biết: “Claude Sonnet 4.5 đã giảm 44% thời gian tiếp nhận lỗ hổng trung bình cho các tác nhân bảo mật Hai của chúng tôi, đồng thời cải thiện độ chính xác lên 25%, giúp chúng tôi giảm thiểu rủi ro cho các doanh nghiệp một cách tự tin.” Theo Sven Krasser, Phó chủ tịch cấp cao về Khoa học dữ liệu và Nhà khoa học trưởng tại CrowdStrike, “Claude cho thấy tiềm năng mạnh mẽ cho red teaming – tạo ra các kịch bản tấn công sáng tạo giúp chúng tôi tăng tốc nghiên cứu kỹ thuật tấn công. Những hiểu biết này củng cố khả năng phòng thủ của chúng tôi trên các điểm cuối, danh tính, đám mây, dữ liệu, SaaS và khối lượng công việc AI.” Những lời chứng thực này đã củng cố niềm tin của chúng tôi vào tiềm năng của công việc ứng dụng, phòng thủ với Claude.

Claude Sonnet 4.5 đại diện cho một cải tiến có ý nghĩa, nhưng chúng tôi biết rằng nhiều khả năng của nó còn non trẻ và chưa thể sánh bằng các chuyên gia an ninh mạng và các quy trình đã được thiết lập. Tuy nhiên, chúng tôi tin rằng bây giờ là thời điểm quan trọng để càng nhiều tổ chức càng tốt bắt đầu thử nghiệm cách AI có thể cải thiện tư thế an ninh của họ và xây dựng các đánh giá để đánh giá những lợi ích đó. Các đánh giá bảo mật tự động trong Claude Code cho thấy cách AI có thể được tích hợp vào quy trình CI/CD. Chúng tôi đặc biệt muốn tạo điều kiện cho các nhà nghiên cứu và đội ngũ thử nghiệm áp dụng các mô hình trong các lĩnh vực như tự động hóa Trung tâm điều hành an ninh (SOC), phân tích Quản lý thông tin và sự kiện bảo mật (SIEM), kỹ thuật mạng an toàn hoặc phòng thủ chủ động. Chúng ta không nên nhường lợi thế AI cho những kẻ tấn công và tội phạm. Trong bối cảnh AI đang chuyển từ mối quan tâm trong tương lai thành một yêu cầu cấp thiết hiện tại đối với an ninh mạng, việc tăng cường sử dụng AI phòng thủ để bảo vệ mã nguồn và cơ sở hạ tầng là điều tối cần thiết.