EleutherAI phát hành bộ dữ liệu huấn luyện AI khổng lồ gồm văn bản có giấy phép và văn bản miền mở

eleutherai releases massive dataset

EleutherAI vừa công bố Common Pile v0.1, một dataset huấn luyện AI khổng lồ với dung lượng 8 terabyte. Bộ dữ liệu này kết hợp văn bản có giấy phép và tài liệu public domain, được phát triển cùng các startup như Poolside và Hugging Face. Điều đáng chú ý là dataset này hứa hẹn giải quyết những tranh cãi pháp lý về bản quyền trong việc huấn luyện AI. Tuy nhiên, liệu nó có thực sự thay đổi cuộc chơi trong ngành công nghiệp AI hay không?

Những điểm chính

  • EleutherAI phát hành Common Pile v0.1 – dataset 8 terabytes với nội dung có bản quyền và miền công cộng.
  • Dataset bao gồm 300,000 cuốn sách miền công cộng từ Library of Congress và Internet Archive được curation cẩn thận.
  • Hai model AI mới Comma v0.1-1T và Comma v0.1-2T (7 tỷ parameters) cạnh tranh với Meta’s Llama AI.
  • Dataset được xây dựng với tư vấn pháp lý nhằm thay thế các dataset độc quyền hiện tại.
  • Giải pháp hợp pháp giúp tăng tính minh bạch trong nghiên cứu AI giữa bối cảnh tranh chấp bản quyền.

EleutherAI đã công bố Common Pile v0.1, một dataset huấn luyện AI khổng lồ với dung lượng 8 terabytes được tạo ra hoàn toàn từ các nguồn có bản quyền và public domain. Dataset này được phát triển thông qua sự hợp tác với các startup AI như Poolside, Hugging Face và nhiều tổ chức học thuật, nhằm cung cấp một giải pháp thay thế cho các dataset độc quyền hiện tại.

EleutherAI ra mắt Common Pile v0.1 – dataset AI 8TB từ nguồn có bản quyền và public domain, thay thế các dataset độc quyền.

Sự ra đời của Common Pile v0.1 diễn ra trong bối cảnh ngành AI đang đối mặt với nhiều vụ kiện tụng liên quan đến việc sử dụng nội dung có bản quyền để huấn luyện model. Các công ty như OpenAI thường dựa vào việc thu thập dữ liệu từ web, bao gồm cả tài liệu có bản quyền, và viện dẫn nguyên tắc fair use để bảo vệ khỏi trách nhiệm pháp lý. EleutherAI cho rằng những vụ kiện này đã làm giảm tính minh bạch trong nghiên cứu AI và cản trở việc hiểu rõ chức năng cũng như khuyết điểm của các model.

Dataset được xây dựng với sự tư vấn từ các chuyên gia pháp lý, bao gồm 300,000 cuốn sách public domain từ Library of Congress và Internet Archive. EleutherAI đã sử dụng Whisper, model speech-to-text mã nguồn mở của OpenAI, để thực hiện việc chuyển đổi văn bản. Quá trình curation nhằm tạo ra một dataset có thể hỗ trợ phát triển các model AI cạnh tranh.

Từ Common Pile v0.1, EleutherAI đã huấn luyện hai model mới là Comma v0.1-1T và Comma v0.1-2T, mỗi model có 7 tỷ parameters. Mặc dù chỉ được huấn luyện trên một phần của dataset, các model này được cho là có thể cạnh tranh với Meta’s Llama AI model trên nhiều benchmark khác nhau. Điều này thách thức quan điểm rằng việc sử dụng văn bản không có giấy phép là cần thiết để đạt được hiệu suất cao.

EleutherAI cam kết sửa chữa những vấn đề từ các lần phát hành dataset trước đây, đặc biệt là The Pile, từng bao gồm tài liệu có bản quyền và gây tranh cãi. Tổ chức này hứa hẹn sẽ phát hành các open dataset thường xuyên hơn trong tương lai.