Anthropic 正准备对移动设备上的 Claude 语音模式进行一次重大更新:在现有英语的基础上,将新增包括俄语、乌克兰语、德语、中文和日语在内的 18 种语言的测试版支持。此外,还将推出对话中实时切换语言的功能、按住说话模式,以及带有动态光球效果的全新界面。
目前,在 Claude 的移动应用中已经发现了语音模式即将扩展的迹象:除了英语之外,还将以测试版的形式加入 18 种新语言,其中包括德语、葡萄牙语、中文、日语、俄语和乌克兰语。新功能还包括在对话过程中直接切换语言、按住说话模式以及界面更新。部分新代码已经出现在应用中,但目前官方尚未发布正式公告,具体的上线时间也未确定。
在官方正式宣布之前,iOS 和 Android 版应用中已经出现了语音模式即将迎来重大更新的迹象。科技媒体 TestingCatalog 率先注意到了这一点。目前的语音模式自 2025 年 5 月起一直处于测试阶段,且此前仅支持英语。
在更新后的界面中,语音指示器周围增加了发光动画,并新增了“按住说话”模式。这一改动相当明显:目前与 Claude 的对话采用的是轮流发言的形式,并不具备像 ChatGPT Advanced Voice 和 Gemini Live 那样的流式全双工传输能力。
“按住说话”是一种只有按住按钮时麦克风才会激活的模式:用户按住按钮说话,松开后语音片段即被发送。与持续监听模式相比,这能有效减少误触发的情况。
更重要的一个变化是新增了一个带有“测试版”标记的“语言”选项区。目前菜单中只有英语处于激活状态,但列表中已经包含了德语、葡萄牙语、中文、日语、俄语、乌克兰语以及其他多种语言。大多数新语言提供两种语音音色,部分语言仅有一种。作为对比,英语目前拥有 Mellow(醇厚)、Airy(空灵)、Buttery(柔滑)、Glassy(清脆)和 Rounded(圆润)五种语音角色。
语言切换可以通过两种方式进行。除了在菜单中手动选择外,还可以在对话过程中直接切换:只需口头要求 Claude 切换语言,即可在对话中实时完成转换。而在目前的版本中,是不具备这种功能的。
Claude 的语音依然保留了文本转语音(TTS)合成的语调特征,而非直接的“语音转语音”模型。由此可以推断,Anthropic 开发了一个新的编排层来管理多种语音和语言配置文件,而不是完全转向自研的底层音频技术栈。
这一细节非常重要,因为在此之前,Anthropic 的 Claude 语音部分一直依赖外部供应商:ElevenLabs 被列为语音合成的分包商,而与亚马逊的广泛合作则支撑了 Alexa+ 的运作。在这样的技术栈之上构建多语言层,将有助于弥补其与竞争对手之间的一个明显短板:毕竟 ChatGPT 和 Gemini 的多语言语音功能已经推出很久了。
TTS(text-to-speech)即文本转语音。与语音转语音模型不同,这种方法会先生成文本回复,然后再将其朗读出来,因此其语调与母语者的自然说话会有所区别。