Encyclopedia Britannica và Merriam-Webster vừa chính thức khởi kiện OpenAI với cáo buộc vi phạm bản quyền quy mô lớn trong quá trình phát triển các mô hình ngôn ngữ lớn (LLM). Theo nội dung đơn khiếu nại, gã khổng lồ công nghệ AI đã tự ý thu thập và sử dụng gần 100.000 bài viết trực tuyến thuộc quyền sở hữu của Britannica để huấn luyện ChatGPT mà không có sự cho phép. Hành động này được nhà xuất bản mô tả là một sự khai thác trái phép nguồn tài nguyên tri thức đã được xây dựng và bảo hộ qua nhiều thập kỷ.
Nhà xuất bản này cáo buộc OpenAI vi phạm luật bản quyền khi ChatGPT tạo ra các đầu ra chứa đựng nội dung sao chép nguyên văn hoặc một phần từ kho tư liệu của họ. Đáng chú ý, công cụ RAG (retrieval augmented generation) của OpenAI bị chỉ trích vì cơ chế quét các cơ sở dữ liệu để tìm kiếm thông tin cập nhật, sau đó đưa ra câu hỏi phản hồi gây cạnh tranh trực tiếp với nội dung gốc. Britannica khẳng định rằng ChatGPT đang làm cạn kiệt nguồn thu của các nhà xuất bản web bằng cách cung cấp các câu trả lời thay thế hoàn toàn cho việc truy cập vào trang web chính thống.
Một điểm gây tranh cãi khác trong đơn kiện liên quan đến Đạo luật Lanham, một quy định về nhãn hiệu tại Hoa Kỳ. Britannica cáo buộc OpenAI đã vi phạm đạo luật này khi ChatGPT tạo ra các hiện tượng ảo giác (hallucinations) – tức những thông tin sai lệch do AI tự bịa ra – nhưng lại gán danh nghĩa một cách sai lầm cho nhà xuất bản. Điều này không chỉ gây tổn hại đến uy tín của Britannica mà còn đe dọa khả năng tiếp cận của công chúng đối với những nguồn thông tin tin cậy và có chất lượng cao trên môi trường số.
Sự việc này đưa Britannica gia nhập danh sách dài các đơn vị xuất bản và tác giả đang theo đuổi các hành động pháp lý chống lại OpenAI, bao gồm The New York Times, Ziff Davis và hàng chục tờ báo lớn tại Mỹ và Canada. Trước đó, một vụ kiện tương tự của Britannica nhắm vào Perplexity vẫn đang trong quá trình chờ xử lý. Những diễn biến này cho thấy một làn sóng phản kháng mạnh mẽ từ giới sở hữu nội dung đối với cách thức các công ty AI thu thập dữ liệu đầu vào.
Mặc dù hiện nay chưa có tiền lệ pháp lý vững chắc để xác định liệu việc dùng nội dung có bản quyền huấn luyện LLM có phạm luật hay không, nhưng các vụ kiện trước đó đã hé lộ nhiều rủi ro cho OpenAI. Trong vụ việc của Anthropic, thẩm phán William Alsup từng nhận định việc sử dụng dữ liệu có tính chuyển đổi là hợp pháp, nhưng việc tải xuống trái phép hàng triệu cuốn sách thay vì trả phí vẫn là hành vi vi phạm. Điều này đặt ra áp lực lớn về mặt pháp lý và tài chính đối với các doanh nghiệp AI trong việc minh bạch hóa nguồn dữ liệu huấn luyện.
Vụ kiện giữa Britannica và OpenAI đánh dấu một cột mốc quan trọng trong việc phân định ranh giới giữa đổi mới công nghệ và bảo hộ quyền sở hữu trí tuệ. Kết quả của cuộc đối đầu này sẽ định hình lại cách thức các công cụ trí tuệ nhân tạo vận hành và chi trả cho nguồn tri thức nhân loại trong tương lai. Đối với các doanh nghiệp và nhà sáng tạo, đây là thời điểm cần chú trọng hơn vào việc xây dựng nền tảng dữ liệu sạch và tôn trọng bản quyền để đảm bảo sự phát triển bền vững.