Alibaba ra mắt PageAgent giúp tích hợp AI Copilot vào website chỉ với một dòng mã

Việc tích hợp các trợ lý thông minh (AI Copilot) vào hệ thống phần mềm doanh nghiệp thường đòi hỏi quy trình phát triển phức tạp và chi phí vận hành hạ tầng không hề nhỏ. Alibaba vừa giới thiệu PageAgent, một khung mã nguồn mở (framework) chạy hoàn toàn trên trình duyệt giúp giải quyết triệt để bài toán này. Thay vì phải cấu hình các máy chủ nặng nề hay sử dụng các công cụ tự động hóa truyền thống như Selenium, nhà phát triển giờ đây chỉ cần nhúng một đoạn mã JavaScript ngắn để biến giao diện web tĩnh thành một môi trường có khả năng tự vận hành bằng ngôn ngữ tự nhiên.

Các giải pháp GUI Agent trước đây thường gặp rào cản lớn về hiệu suất do phụ thuộc vào công nghệ nhận diện hình ảnh (OCR) và các mô hình thị giác máy tính (Vision-LLM). Phương pháp này không chỉ gây trễ cao mà còn tiêu tốn chi phí API lớn vì AI phải xử lý dữ liệu hình ảnh liên tục để đưa ra quyết định thao tác. Ngoài ra, việc triển khai robot trên máy chủ khiến chúng khó truy cập vào trạng thái đăng nhập (Session/Cookies) hiện tại của người dùng, dẫn đến những rắc rối về xác thực danh tính và bảo mật dữ liệu cá nhân.

PageAgent thay đổi cuộc chơi bằng cách tiếp cận trực tiếp vào cấu trúc DOM của trang web thay vì phân tích hình ảnh chụp màn hình. Hệ thống thực hiện quy trình “chiết xuất và làm sạch” các phần tử tương tác như nút bấm, ô nhập liệu và liên kết, sau đó chuyển đổi chúng thành văn bản tinh gọn để gửi đến mô hình ngôn ngữ lớn (LLM). Cơ chế này giúp giảm tối đa lượng token tiêu thụ, cho phép ngay cả các mô hình ngôn ngữ nhỏ hoặc mã nguồn mở như Llama 3 cũng có thể điều khiển trình duyệt một cách chính xác mà không cần đến năng lực thị giác đắt đỏ.

Điểm vượt trội của khung mã này nằm ở khả năng vận hành hoàn toàn tại phía người dùng (Client-side) và kế thừa trọn vẹn quyền hạn thao tác. Do chạy trực tiếp trong trình duyệt, PageAgent không yêu cầu thay đổi logic hệ thống hậu cần (Backend) hay xử lý các vấn đề xác thực phức tạp giữa các máy chủ. Điều này đặc biệt phù hợp với các ứng dụng một trang (SPA) hiện đại, nơi AI có thể thay mặt người dùng thực hiện các tác vụ phức tạp như điền biểu mẫu thanh toán hoặc truy xuất báo cáo chỉ qua một yêu cầu bằng giọng nói hoặc văn bản.

  • Đơn giản hóa các hệ thống ERPB2B phức tạp, giúp nhân viên mới thực hiện nghiệp vụ ngay lập tức mà không cần qua các khóa đào tạo sử dụng phần mềm chuyên sâu.
  • Nâng cấp các chatbot chăm sóc khách hàng truyền thống từ việc chỉ đưa ra chỉ dẫn văn bản sang khả năng trực tiếp dẫn đường hoặc thao tác thay đổi cài đặt cho người dùng dưới sự cho phép.
  • Thực hiện các luồng công việc liên kết nhiều nền tảng SaaS khác nhau thông qua tiện ích mở rộng, giúp đồng bộ và di chuyển dữ liệu tự động giữa các tab trình duyệt một cách mượt mà.

Ứng dụng thực tế của PageAgent mang lại giá trị kinh tế rõ rệt thông qua các kịch bản vận hành tối ưu:

Mặc dù mặc định tích hợp mô hình Qwen 3.5 của Alibaba, PageAgent vẫn cung cấp khả năng tùy biến linh hoạt để kết nối với các mô hình phổ biến khác như GPT-4, Claude hay DeepSeek. Đây là giải pháp thực tiễn để các doanh nghiệp hiện đại hóa trải nghiệm người dùng và cắt giảm chi phí hỗ trợ kỹ thuật mà không cần tái cấu trúc toàn bộ hệ thống. Bạn nên bắt đầu bằng việc thử nghiệm triển khai mã nguồn này trên các môi trường nội bộ để đánh giá hiệu quả tự động hóa trước khi áp dụng rộng rãi cho khách hàng cuối.