继最近发布多语言机器翻译(MT)模型 SeamlessM4T 之后,Meta 又为其 MT 工具库增加了三种模型:SeamlessStreaming、SeamlessExpressive 和 Seamless。这些新的开源模型以 SeamlessM4T 第 2 版为基础,具有最先进的语音识别和翻译功能,可支持多达 100 种语言。这四种模型共同组成了无缝沟通套件。“以我们的基础多语言模型 SeamlessM4T 为基础,我们正朝着实现跨语言实时翻译的未来迈进,”Meta 研究工程师 Anna Sun 在某一公司视频中说道。据 Meta 的人工智能研究团队称,该系统能够实现快速、准确和保留表达的语音翻译,使其 “向消除语言障碍迈出了重要一步”。
每个新的人工智能模型都分别针对翻译的不同方面。Sun 表示,SeamlessStreaming 注重速度,”只需不到两秒的延迟时间就能完成翻译,这与同声传译译员的平均延迟时间相当”。在最近的一篇博客推文中,Meta 的研究人员解释道:“传统AI翻译是在人说完话后才进行翻译,而SeamlessStreaming 则是在人说话的同时进行翻译。”同时,SeamlessExpressive 还能保留说话者的声音风格和情绪语调,使翻译后的语音听起来不那么机械化。博客中还写道:“不仅仅是所选的措辞可以传达我们想表达的含义,还有说话方式也可以。””语调、停顿和重读都是重要的信号,有助于我们传达情感和意图。”
一体化的Seamless 模型结合了 SeamlessStreaming 和 SeamlessExpressive 的功能。研究人员在博客中写道,一种创新的 “水印” 功能可以识别出音频输出是人工智能生成的,这 “有助于促进负责任地使用语音保存技术,并防止可能发生的滥用情况”。Meta 研究人员总结道,这一系统让我们与通用翻译器更加接近。在一份公开发表的研究论文中,他们写道:”Seamless 让我们看到了将通用语音翻译器从科幻小说中的概念变成现实世界中的技术所需的关键技术基础。”
(机器翻译,轻度译后编辑,仅供参考)
编辑:武娇阳