Khi rời Apple để quản lý mảng liêm chính kinh doanh tại Facebook vào năm 2019, Brett Levenson nhận ra một thực trạng đáng ngại: đội ngũ kiểm duyệt viên con người chỉ đạt độ chính xác khoảng 50% khi xử lý các nội dung vi phạm. Với áp lực phải đưa ra quyết định trong vòng 30 giây dựa trên những tài liệu chính sách phức tạp được dịch máy, quy trình này giống như một trò chơi may rủi hơn là một hệ thống bảo vệ người dùng chuyên nghiệp. Sự chậm trễ và sai sót này đã tạo kẽ hở cho các nội dung độc hại lan truyền rộng rãi trước khi bị can thiệp.
Sự bùng nổ của các mô hình ngôn ngữ lớn (LLM) càng làm trầm trọng thêm vấn đề khi các chatbot có thể cung cấp hướng dẫn tự hại hoặc tạo ra hình ảnh nhạy cảm vượt qua các bộ lọc thông thường. Brett Levenson cùng cộng sự Ash Bhardwaj, một chuyên gia hạ tầng đám mây từ Apple, đã thành lập Moonbounce để giải quyết tận gốc thách thức này thông qua khái niệm chính sách dưới dạng mã (policy as code). Thay vì dựa vào các văn bản tĩnh, họ chuyển hóa quy tắc kiểm duyệt thành logic có thể thực thi ngay lập tức và gắn chặt vào quá trình vận hành của ứng dụng.
Nền tảng của Moonbounce sử dụng một mô hình ngôn ngữ lớn riêng biệt để phân tích tài liệu chính sách của khách hàng và đánh giá nội dung trong thời gian thực với tốc độ dưới 300 miligiây. Hệ thống này hoạt động như một lớp bảo vệ độc lập nằm giữa người dùng và chatbot, giúp ngăn chặn các rủi ro mà chính mô hình AI gốc có thể không tự nhận diện được. Hiện tại, công ty đang xử lý hơn 40 triệu lượt đánh giá mỗi ngày cho các đối tác trong lĩnh vực ứng dụng hẹn hò, trình tạo ảnh AI và các nền tảng nhập vai trực tuyến.
Một trong những công nghệ đột phá nhất mà Moonbounce đang phát triển là điều hướng lặp lại (iterative steering). Thay vì chỉ từ chối yêu cầu của người dùng một cách máy móc khi gặp chủ đề nhạy cảm, hệ thống sẽ can thiệp và sửa đổi câu lệnh (prompt) trong thời gian thực để hướng chatbot phản hồi theo cách hỗ trợ và an toàn hơn. Phương pháp này đặc biệt quan trọng trong việc ngăn chặn các thảm kịch liên quan đến sức khỏe tâm thần, giúp AI không chỉ là một công cụ tương tác mà còn là một bộ lọc có trách nhiệm xã hội.
Với khoản đầu tư 12 triệu USD vừa huy động được từ Amplify Partners và StepStone Group, Moonbounce đang định vị an toàn nội dung như một lợi thế cạnh tranh thay vì chỉ là gánh nặng kỹ thuật. Các doanh nghiệp như Civitai hay Dippy AI đang tận dụng hạ tầng này để xây dựng niềm tin và sự khác biệt cho sản phẩm của mình. Tầm nhìn của Levenson là biến những rào cản an toàn khách quan trở thành xương sống cho mọi ứng dụng trung gian AI, đảm bảo công nghệ phát triển đi đôi với sự bảo vệ người dùng tối đa.
Việc tích hợp các giải pháp kiểm duyệt tự động hóa dựa trên LLM là bước đi thiết yếu để các doanh nghiệp công nghệ giảm thiểu rủi ro pháp lý và bảo vệ uy tín thương hiệu. Các đơn vị phát triển ứng dụng AI nên chủ động cập nhật các tiêu chuẩn an toàn thời gian thực để tối ưu hóa trải nghiệm người dùng và đảm bảo tính bền vững cho hệ sinh thái sản phẩm của mình.