Trợ lý giọng nói AI Moshi mới “vượt mặt” OpenAI với tính năng được mong đợi nhất của ChatGPT

Sự chậm trễ trong việc ra mắt chế độ giọng nói ấn tượng của ChatGPT từ OpenAI đã khiến nhiều người hâm mộ chatbot AI này thất vọng. Tuy nhiên, một đối thủ mới đã xuất hiện và có thể “vượt mặt” OpenAI. Nhà phát triển trí tuệ nhân tạo Kyutai của Pháp vừa giới thiệu trợ lý giọng nói AI thời gian thực mang tên Moshi.

Moshi được thiết kế để cung cấp các cuộc trò chuyện sống động với người dùng thông qua giọng nói, tương tự như Alexa hoặc Google Assistant, nhưng được hỗ trợ bởi các mô hình ngôn ngữ lớn làm nền tảng cho ChatGPT và các đối thủ, trong trường hợp này là mô hình Helium 7B. Theo Kyutai, Moshi có thể nói bằng nhiều giọng khác nhau và sở hữu 70 kiểu nói và cảm xúc khác nhau. AI này thậm chí có thể xử lý đồng thời hai luồng âm thanh, cho phép Moshi nghe và nói cùng lúc.

Quá trình phát triển Moshi của Kyutai bao gồm việc tinh chỉnh hơn 100.000 đoạn hội thoại được tạo bằng công nghệ Text-to-Speech (TTS). Mục tiêu là giúp Moshi học hỏi được sắc thái và giọng điệu giao tiếp của con người. Nhóm phát triển thậm chí còn hợp tác với một nghệ sĩ lồng tiếng chuyên nghiệp để nâng cao chất lượng giọng nói của Moshi.

Trợ lý AI này tích hợp cả huấn luyện văn bản và âm thanh, được tối ưu hóa cho nhiều phụ trợ, nghĩa là nó có thể chạy trên các thiết bị như máy tính xách tay mà không cần phải tương tác với đám mây. Công ty giới thiệu đây là cách để duy trì quyền riêng tư và bảo mật bằng cách ngăn chặn việc truyền dữ liệu nhạy cảm qua internet. Bạn có thể xem bản demo về Moshi tại đây.

Mở rộng cánh cửa mã nguồn mở

Kyutai tuyên bố rằng Moshi sẽ là một dự án mã nguồn mở, bao gồm cả mã và framework của mô hình, tạo nền tảng cho sự đổi mới hơn nữa. Cách tiếp cận mã nguồn mở cũng có thể giúp xoa dịu những phàn nàn mà các công ty AI lớn hơn đang phải đối mặt liên quan đến tính an toàn và đạo đức liên quan đến các mô hình đóng của họ. Các nhà đầu tư của Kyutai, bao gồm cả tỷ phú người Pháp Xavier Niel, đang thúc đẩy mạnh mẽ cách tiếp cận mã nguồn mở.

Kyutai cũng đang nghiên cứu các hệ thống nhận dạng âm thanh AI, gắn dấu chìm và theo dõi chữ ký để tích hợp vào Moshi. Các tính năng này sẽ giúp xác định âm thanh do AI tạo ra, thúc đẩy trách nhiệm giải trình và khả năng truy xuất nguồn gốc, đồng thời đảm bảo rằng nội dung do AI tạo ra có thể được giám sát và xác minh.

Moshi vẫn đang trong quá trình phát triển, nhưng chế độ giọng nói trong bản trình bày rất ấn tượng. Cách tiếp cận bằng giọng nói có thể đóng vai trò là chất xúc tác cho các phiên bản hỗ trợ giọng nói khác của các đối thủ ChatGPT hoặc đẩy nhanh việc bổ sung LLM vào Alexa và các trợ lý giọng nói khác nếu Moshi bắt kịp xu hướng và trở nên phổ biến.