DeepL ra mắt công cụ dịch giọng nói thời gian thực

DeepL, thương hiệu vốn nổi tiếng với các giải pháp dịch thuật văn bản chính xác, vừa chính thức giới thiệu bộ công cụ dịch giọng nói trực tiếp nhắm đến các kịch bản giao tiếp đa dạng từ hội họp trực tuyến đến tương tác tại hiện trường. Giải pháp này không chỉ hỗ trợ các cuộc hội thoại trên nền tảng di động và web mà còn cung cấp khả năng kết nối nhóm thông qua các ứng dụng tùy chỉnh dành cho nhân viên tuyến đầu. Bên cạnh đó, doanh nghiệp này cũng phát hành một giao diện lập trình ứng dụng (API), cho phép các bên thứ ba xây dựng những giải pháp chuyên biệt như trung tâm cuộc gọi dựa trên nền tảng công nghệ cốt lõi của hãng.

CEO Jarek Kutylowski nhận định rằng sau nhiều năm tối ưu hóa việc dịch thuật văn bản và tài liệu, bước chuyển mình sang mảng giọng nói là một tiến trình phát triển tự nhiên. Theo ông, thị trường hiện vẫn thiếu vắng những sản phẩm dịch giọng nói thời gian thực thực sự chất lượng, đủ để đáp ứng nhu cầu khắt khe của môi trường chuyên nghiệp. Thách thức lớn nhất trong việc phát triển sản phẩm này nằm ở việc tìm ra điểm cân bằng giữa việc giảm thiểu độ trễ – khoảng thời gian từ lúc nói đến khi âm thanh dịch phát ra – và việc duy trì độ chính xác tuyệt đối của nội dung bản dịch.

Hiện tại, DeepL đã bắt đầu triển khai các tiện ích bổ sung cho những nền tảng hội họp phổ biến như Zoom và Microsoft Teams. Người dùng có thể lựa chọn nghe bản dịch trực tiếp hoặc theo dõi phụ đề văn bản hiển thị trên màn hình ngay khi đối phương đang nói bằng ngôn ngữ bản địa của họ. Chương trình này hiện đang trong giai đoạn truy cập sớm (early access) và các tổ chức quan tâm có thể đăng ký vào danh sách chờ để trải nghiệm. Đối với các buổi đào tạo hoặc hội thảo trực tiếp, người tham gia có thể dễ dàng gia nhập cuộc hội thoại nhóm chỉ bằng cách quét mã QR.

Một ưu điểm đáng chú ý của hệ thống này là khả năng học hỏi và thích nghi với các từ vựng chuyên ngành, tên riêng của công ty hoặc các thuật ngữ đặc thù trong từng lĩnh vực cụ thể. Về mặt kỹ thuật, quy trình hiện tại của DeepL bao gồm việc chuyển đổi giọng nói thành văn bản, tiến hành dịch thuật, sau đó chuyển đổi ngược lại thành âm thanh. Với lợi thế nhiều năm kinh nghiệm trong mảng dịch thuật văn bản, DeepL tin rằng họ sở hữu thế mạnh vượt trội về chất lượng ngôn ngữ so với các đối thủ. Trong tương lai, hãng đặt mục tiêu phát triển mô hình dịch giọng nói đầu-cuối (end-to-end) để loại bỏ bước trung gian, giúp tối ưu tốc độ xử lý hơn nữa.

Sự xuất hiện của công nghệ dịch thuật AI đang tái định nghĩa lại bộ mặt của ngành dịch vụ khách hàng trong những năm tới. Lớp dịch thuật này giúp các doanh nghiệp cung cấp dịch vụ hỗ trợ bằng nhiều ngôn ngữ khác nhau mà không cần phụ thuộc vào đội ngũ nhân sự đa ngôn ngữ vốn khan hiếm và có chi phí tuyển dụng cao. Thay vì tập trung vào rào cản ngôn ngữ, doanh nghiệp có thể dồn nguồn lực vào việc nâng cao chất lượng nghiệp vụ, giúp tối ưu hóa chi phí vận hành và mở rộng quy mô thị trường một cách nhanh chóng.

Dù vậy, DeepL cũng phải đối mặt với sự cạnh tranh gay gắt từ nhiều startup tiềm năng khác trong cùng phân khúc. Có thể kể đến Sanas với công nghệ điều chỉnh giọng điệu theo thời gian thực dành cho các tổng đài viên, hay Camb.AI tập trung vào việc lồng tiếng và bản địa hóa nội dung video cho các đơn vị truyền thông. Một đối thủ trực tiếp khác là Palabra cũng đang xây dựng công cụ dịch giọng nói có khả năng giữ nguyên sắc thái và giọng điệu gốc của người nói. Cuộc đua này hứa hẹn sẽ mang lại những bước tiến đột phá, giúp việc giao tiếp xuyên biên giới trở nên liền mạch và tự nhiên hơn bao giờ hết.

Giải pháp dịch giọng nói của DeepL đánh dấu một cột mốc quan trọng trong việc xóa bỏ rào cản ngôn ngữ tại nơi làm việc, giúp các tổ chức tối ưu hóa hiệu suất cộng tác toàn cầu. Để không bỏ lỡ cơ hội nâng cao năng lực cạnh tranh thông qua công nghệ dịch thuật tiên tiến, các doanh nghiệp nên chủ động đăng ký trải nghiệm và tích hợp các công cụ này vào quy trình vận hành ngay từ giai đoạn thử nghiệm.