Sử dụng mô hình ngôn ngữ lớn Llama do chính Meta phát triển, NotebookLlama có khả năng tạo ra các đoạn hội thoại dạng podcast từ các tệp văn bản được tải lên.
Ảnh: Meta
Cơ chế hoạt động:
- NotebookLlama phân tích tệp văn bản đầu vào (ví dụ: bài báo, blog) và tạo ra một bản chép lời.
- Tiếp đó, nó thêm vào các yếu tố kịch tính và ngắt quãng cho bản chép lời.
- Cuối cùng, bản chép lời được chuyển đổi thành giọng nói bằng các mô hình text-to-speech mã nguồn mở.
Tuy nhiên, chất lượng âm thanh của NotebookLlama hiện chưa thể sánh bằng NotebookLM. Các đoạn demo cho thấy giọng nói còn khá robotronic và đôi lúc bị chồng chéo lên nhau.
Nhóm phát triển tại Meta nhận định, chất lượng âm thanh có thể được cải thiện bằng cách sử dụng các mô hình mạnh mẽ hơn. Bên cạnh đó, việc sử dụng nhiều mô hình ngôn ngữ để mô phỏng các vai trò khác nhau trong podcast cũng là một hướng phát triển tiềm năng.
Mặc dù vậy, NotebookLlama vẫn chưa thể khắc phục được vấn đề “ảo giác” vốn tồn tại trong hầu hết các mô hình AI hiện nay. Điều này đồng nghĩa với việc các podcast do AI tạo ra có thể chứa thông tin sai lệch hoặc bịa đặt.