据科技媒体 Tech Crunch 报道,以高精度文本翻译工具而闻名的德国公司 DeepL,近日正式推出了一套全新的实时语音对语音翻译解决方案。这标志着 DeepL 从传统的文本处理向更复杂的实时语音交互领域迈出了关键一步。
DeepL 此次发布的新服务旨在覆盖广泛的沟通场景,包括商务会议、移动及 Web 应用程序中的对话,以及多人小组讨论。除了面向终端用户的产品,DeepL 还同步推出了应用程序编程接口,赋能开发者和企业基于其底层技术构建定制化解决方案,例如应用于呼叫中心等客户服务场景。
DeepL 首席执行官 Jarek Kutylowski 表示:“在深耕文本翻译领域多年后,进军语音领域对我们来说是顺理成章的一步。我们在文本和文档翻译方面已经取得了长足进步,但我们认为市场上目前还缺乏一款真正优秀的实时语音翻译产品。”
Kutylowski 进一步指出,开发过程中的主要技术挑战在于寻找“延迟”与“准确性”之间的最佳平衡点 —— 即如何在尽可能缩短说话与翻译输出之间的时间差的同时,保证翻译结果的高精准度。
目前,DeepL 已发布了适用于 Zoom 和 Microsoft Teams 等主流会议平台的插件。用户既可以选择实时收听翻译后的语音,也可以在屏幕上阅读翻译文本。
需要注意的是,该功能目前处于早期访问模式,受限于等待名单,并未向所有地区开放。
DeepL 强调,其完全掌控整个语音对语音翻译的技术栈。目前的系统采用三阶段处理流程:“语音转文字 → 文本翻译 → 文字转语音合成”。
未来的技术路线图显示,DeepL 计划开发一种全语音模型,该模型将跳过中间的文本阶段,直接进行语音到语音的转换。此外,该技术还具备学习能力,能够适应特定的词汇库,例如行业术语、公司名称以及人名等,以进一步提升专业场景下的准确性。
在语音翻译领域,DeepL 将面临众多资金雄厚的初创公司的激烈竞争:
Sanas: 该公司去年获得了 Quadrille Capital 和 Teleperformance 的 6500 万美元融资,其技术专注于利用人工智能实时改变说话者的口音。
Camb.AI: 这家总部位于迪拜的公司专注于为媒体和娱乐公司提供语音合成与翻译服务,其客户包括亚马逊云服务。
Palabra: 这家初创公司获得了 Reddit 联合创始人 Alexis Ohanian 旗下 Seven Seven Six 基金的支持,正在开发一种不仅能翻译内容,还能保留说话者原始音色特征的语音翻译系统。