Hôm thứ Năm, OpenAI đã phát hành bản xem trước nghiên cứu về “Operator“, một công cụ tự động hóa web sử dụng mô hình AI mới có tên Computer-Using Agent (CUA) để điều khiển máy tính thông qua giao diện hình ảnh. Hệ thống thực hiện các tác vụ bằng cách xem và tương tác với các yếu tố trên màn hình như nút bấm và trường văn bản tương tự như cách con người vẫn làm.
Operator hiện khả dụng cho người đăng ký gói ChatGPT Pro với giá 200 đô la mỗi tháng tại operator.chatgpt.com. Công ty có kế hoạch mở rộng sang người dùng Plus, Team và Enterprise sau này. OpenAI dự định tích hợp các khả năng này trực tiếp vào ChatGPT và sau đó phát hành CUA thông qua API cho các nhà phát triển.
Operator quan sát nội dung trên màn hình khi bạn sử dụng máy tính và thực thi các tác vụ thông qua các thao tác bàn phím và chuột mô phỏng. Computer-Using Agent xử lý ảnh chụp màn hình để hiểu trạng thái của máy tính và sau đó đưa ra quyết định về việc nhấp, nhập và cuộn dựa trên những quan sát của nó.
Việc phát hành Operator của OpenAI diễn ra sau khi các công ty công nghệ khác cũng đang đẩy mạnh phát triển các hệ thống AI “đại diện”, có thể thực hiện các hành động thay mặt người dùng. Google đã công bố Project Mariner vào tháng 12 năm 2024, thực hiện các tác vụ tự động thông qua trình duyệt Chrome, và hai tháng trước đó, vào tháng 10 năm 2024, Anthropic đã ra mắt một công cụ tự động hóa web có tên “Computer Use” tập trung vào các nhà phát triển có thể điều khiển con trỏ chuột của người dùng và thực hiện các hành động trên máy tính.
“Giao diện Operator trông rất giống với bản demo Claude Computer Use của Anthropic từ tháng 10,” nhà nghiên cứu AI Simon Willison viết trên blog của mình, “thậm chí giống đến cả giao diện với bảng trò chuyện bên trái và giao diện hiển thị đang được tương tác ở bên phải.”
Quan sát và hành động
Để sử dụng máy tính của bạn như bạn vẫn làm, Computer-Using Agent hoạt động theo nhiều bước. Đầu tiên, nó chụp ảnh màn hình để theo dõi màn hình của bạn, sau đó phân tích những hình ảnh đó (sử dụng khả năng thị giác của GPT-4o với học tăng cường bổ sung) để xử lý dữ liệu pixel thô. Tiếp theo, nó xác định những hành động cần thực hiện và sau đó thực hiện các thao tác nhập ảo để điều khiển máy tính. Thiết kế vòng lặp lặp đi lặp lại này được cho là cho phép hệ thống phục hồi từ lỗi và xử lý các tác vụ phức tạp trên các ứng dụng khác nhau.
Trong khi hoạt động, Operator hiển thị một cửa sổ trình duyệt thu nhỏ về các hành động của nó.
Tuy nhiên, công nghệ đằng sau Operator vẫn còn khá mới và chưa hoàn hảo. Mô hình được cho là hoạt động tốt nhất với các tác vụ web lặp đi lặp lại như tạo danh sách mua sắm hoặc danh sách phát. Nó gặp khó khăn hơn với các giao diện không quen thuộc như bảng và lịch, và hoạt động kém với việc chỉnh sửa văn bản phức tạp (với tỷ lệ thành công 40%), theo dữ liệu thử nghiệm nội bộ của OpenAI.
Operator đạt được tỷ lệ thành công cao trong một số bài kiểm tra, nhưng vẫn chưa đạt được hiệu suất như con người.
Với bản xem trước nghiên cứu chưa hoàn thiện này, OpenAI hy vọng sẽ thu thập phản hồi của người dùng và tinh chỉnh các khả năng của hệ thống. Công ty thừa nhận CUA sẽ không hoạt động đáng tin cậy trong mọi trường hợp nhưng có kế hoạch cải thiện độ tin cậy của nó trên nhiều loại tác vụ khác nhau thông qua thử nghiệm của người dùng.
Lo ngại về bảo mật và quyền riêng tư
OpenAI đã tích hợp các biện pháp kiểm soát bảo mật và quyền riêng tư, bao gồm xác nhận của người dùng trước khi thực hiện các hành động nhạy cảm, giới hạn truy cập website, và tùy chọn xóa dữ liệu duyệt web. Tuy nhiên, vẫn còn những lo ngại về khả năng bị tấn công và rò rỉ thông tin. Người dùng nên thận trọng khi sử dụng Operator, đặc biệt là với thông tin nhạy cảm.