Mistral ra mắt mô hình AI tạo giọng nói mã nguồn mở Voxtral TTS

Công ty trí tuệ nhân tạo Pháp Mistral AI vừa chính thức giới thiệu Voxtral TTS, một mô hình chuyển đổi văn bản thành giọng nói (text-to-speech) mã nguồn mở được thiết kế để phục vụ các ứng dụng doanh nghiệp và trợ lý ảo. Sự xuất hiện của Voxtral TTS đưa Mistral vào vị thế cạnh tranh trực tiếp với các đơn vị dẫn đầu thị trường như ElevenLabs, DeepgramOpenAI. Mô hình này tập trung vào việc hỗ trợ doanh nghiệp xây dựng các đại lý giọng nói phục vụ bán hàng và tương tác khách hàng một cách tự nhiên nhất.

Được phát triển dựa trên nền tảng của mô hình Ministral 3B, Voxtral TTS sở hữu kích thước nhỏ gọn đủ để vận hành hiệu quả trên các thiết bị biên như đồng hồ thông minh, điện thoại di động hay máy tính xách tay. Đại diện Mistral AI cho biết mức chi phí để triển khai mô hình này chỉ bằng một phần nhỏ so với các giải pháp khác, trong khi vẫn duy trì được hiệu suất hàng đầu. Khả năng tương thích đa thiết bị giúp các nhà phát triển dễ dàng tích hợp công nghệ vào hệ sinh thái phần cứng hiện có mà không cần phụ thuộc quá nhiều vào hạ tầng đám mây đắt đỏ.

Điểm vượt trội của Voxtral TTS nằm ở khả năng tùy chỉnh giọng nói chỉ với một đoạn âm thanh mẫu dài chưa đến 5 giây. Công nghệ này có thể tái tạo chính xác các đặc điểm tinh tế như giọng địa phương, ngữ điệu, cách ngắt nghỉ và những biến tấu tự nhiên trong dòng chảy ngôn ngữ của con người. Hiện tại, mô hình hỗ trợ 9 ngôn ngữ bao gồm tiếng Anh, Pháp, Đức, Tây Ban Nha, Hà Lan, Bồ Đào Nha, Ý, Hindi và tiếng Ả Rập, cho phép chuyển đổi linh hoạt giữa các ngôn ngữ mà không làm mất đi bản sắc riêng của giọng nói gốc.

Về mặt kỹ thuật, Mistral đã tối ưu hóa mô hình để đạt được hiệu suất xử lý trong thời gian thực với chỉ số thời gian phản hồi âm thanh đầu tiên (TTFA) chỉ khoảng 90 mili giây cho một đoạn văn bản 500 ký tự. Với hệ số thời gian thực (RTF) đạt mức 6x, Voxtral TTS có khả năng kết xuất một đoạn clip âm thanh dài 10 giây chỉ trong khoảng 1,6 giây. Tốc độ này cực kỳ quan trọng đối với các tác vụ yêu cầu sự phản hồi tức thì như lồng tiếng trực tiếp hoặc dịch thuật thời gian thực, nơi mà độ trễ có thể làm hỏng trải nghiệm người dùng.

Việc ra mắt Voxtral TTS là bước đi tiếp theo trong chiến lược xây dựng nền tảng đa phương thức toàn diện của Mistral, sau khi hãng đã tung ra các mô hình chuyển mã âm thanh trước đó. Bằng cách cung cấp một giải pháp mã nguồn mở có tính tùy biến cao, Mistral tạo điều kiện cho các doanh nghiệp tự điều chỉnh mô hình theo nhu cầu riêng biệt thay vì sử dụng các sản phẩm đóng gói sẵn. Đây là lợi thế cạnh tranh then chốt giúp các đơn vị tối ưu hóa quy trình vận hành và nâng cao chất lượng dịch vụ khách hàng thông qua giao diện giọng nói sống động.

Với sự kết hợp giữa hiệu suất cao, chi phí thấp và tính linh hoạt của mã nguồn mở, Voxtral TTS hứa hẹn sẽ trở thành công cụ đắc lực cho các doanh nghiệp muốn làm chủ công nghệ âm thanh AI. Các nhà phát triển và đơn vị kinh doanh nên bắt đầu thử nghiệm mô hình này để tận dụng khả năng tùy biến giọng nói đặc thù, từ đó tạo ra những trải nghiệm tương tác cá nhân hóa và chuyên nghiệp hơn cho khách hàng của mình.