Google thưởng tới 30.000 USD cho thợ săn lỗi AI

Google vừa chính thức ra mắt một chương trình phần thưởng mới dành riêng cho việc tìm kiếm các lỗi bảo mật trong sản phẩm AI. Đây là một động thái cho thấy sự nghiêm túc của gã khổng lồ công nghệ trong việc đảm bảo an toàn cho các công nghệ trí tuệ nhân tạo ngày càng phát triển của mình. Với mức thưởng lên tới 30.000 USD cho mỗi phát hiện có giá trị, Google mong muốn thu hút các chuyên gia bảo mật và cộng đồng nghiên cứu AI trên toàn thế giới tham gia vào cuộc săn lùng những lỗ hổng tiềm ẩn. Chương trình này không chỉ là cơ hội để các “thợ săn lỗi” (bug hunters) kiếm thêm thu nhập mà còn góp phần quan trọng vào việc nâng cao tính bảo mật và độ tin cậy của các sản phẩm AI mà hàng tỷ người dùng đang sử dụng hàng ngày.

Tầm quan trọng của việc phát hiện và báo cáo lỗi AI

Google định nghĩa rõ ràng “lỗi AI” là những vấn đề phát sinh khi sử dụng mô hình ngôn ngữ lớn (LLM) hoặc hệ thống AI tạo sinh, dẫn đến gây hại hoặc lợi dụng kẽ hở bảo mật. Danh sách các lỗi đủ điều kiện nhận thưởng bao gồm những hành vi bất thường, chẳng hạn như việc tiêm nhiễm một câu lệnh (prompt injection) khiến Google Home tự động mở cửa, hoặc một câu lệnh tương tự có khả năng lấy cắp dữ liệu nhạy cảm, tóm tắt toàn bộ email của người dùng và gửi đến tài khoản của kẻ tấn công. Điều này bao gồm cả việc sửa đổi tài khoản hoặc dữ liệu cá nhân nhằm gây cản trở bảo mật hoặc thực hiện các hành động không mong muốn, như trường hợp từng bị phơi bày khi một sự kiện Google Calendar bị “đầu độc” có thể khiến rèm cửa thông minh tự động mở và đèn tắt.

Trong hai năm qua, kể từ khi chính thức mời các nhà nghiên cứu AI tham gia tìm kiếm các lỗ hổng tiềm ẩn, các thợ săn lỗi đã kiếm được hơn 430.000 USD. Tuy nhiên, Google nhấn mạnh rằng việc chỉ đơn thuần khiến Gemini “ảo giác” (hallucinate) sẽ không được xem xét. Các vấn đề liên quan đến nội dung do AI tạo ra, ví dụ như tạo ra phát ngôn thù địch hoặc nội dung vi phạm bản quyền, cần được báo cáo qua kênh phản hồi trực tiếp trên sản phẩm. Điều này giúp đội ngũ an toàn AI của Google có thể “chẩn đoán hành vi của mô hình và triển khai các biện pháp đào tạo an toàn dài hạn, trên toàn bộ mô hình”.

Mức thưởng 20.000 USD được áp dụng cho các hành vi bất thường trên các sản phẩm “chủ lực” của Google như Search, Gemini Apps và các ứng dụng Workspace cốt lõi như Gmail, Drive. Các yếu tố như chất lượng báo cáo và tính mới lạ của lỗi có thể nhân hệ số thưởng, đưa tổng số tiền lên tới 30.000 USD. Đối với các sản phẩm khác của Google, như Jules hay NotebookLM, hoặc các hành vi lạm dụng cấp thấp hơn, ví dụ như đánh cắp các tham số bí mật của mô hình, mức thưởng sẽ thấp hơn. Cùng với chương trình thưởng AI mới, Google cũng công bố CodeMender, một tác nhân AI có khả năng vá các lỗ hổng mã nguồn. Google cho biết họ đã sử dụng CodeMender để vá “72 bản sửa lỗi bảo mật cho các dự án mã nguồn mở” sau khi được thẩm định bởi nhà nghiên cứu con người.