谷歌的 Translatotron 翻译系统升级回归了–其创造者自豪地称之为 “首个完全无监督的端到端直接语音翻译模型”。Translatotron 最初于 2019 年 4 月亮相,是改进传统语音到语音翻译(S2ST)模式的早期概念验证。
标准的”级联”语音翻译系统包括四个步骤:自动语音识别 (ASR)、语音到文本 (STT) 转录、机器翻译(MT) 和文本到语音。Translatotron 跳过了文本翻译步骤。
2021 年 7 月推出的 Translatotron 2 优于其原始版本,在翻译质量、语音稳健性和语音自然度方面都与传统级联系统相当。研究人员还加入了防止模型用于生成语音深度伪造的保护措施。
Translatotron 的第三个版本在几个方面对其前身进行了改进,其中最突出的是其无监督 S2ST 架构。该系统还能仅从单语数据中 “学习” S2ST。
谷歌研究科学家埃利亚-纳克马尼(Eliya Nachman)和软件工程师米歇尔-塔德莫尔-拉马诺维奇(Michelle Tadmor Ramanovich)在 2023 年 12 月 1 日的一篇博文中写道:“这种方法不仅为更多语言对之间的翻译打开了大门,而且还为停顿、语速和说话人身份等非文本语音属性的翻译打开了大门。”
激烈的竞争
语音翻译是硅谷的热门话题。2023 年 11 月,谷歌的竞争对手 Meta 发布了自己的人工智能模型 Seamless,据说它可以实时翻译语音,并保语音风格一致。
谷歌引以为豪的是 Translatotron 省略了文本翻译,而 Meta 则宣传 Seamless 能够处理近 100 种输入和输出语言的 ASR 和 STT 翻译。其 STT 翻译可将近 100 种输入语言翻译成 36 种目标语言。作者建议使用反向翻译(即无监督 MT 生成源语言文本的合成翻译),以此消除无监督 S2ST 对双语语音数据集的需求。
Translatotron经历了两个阶段的训练过程。第一部分侧重于自动编码输入,第二部分则训练网络翻译输入(即通过反向翻译)。
纳赫马尼(Nachmani)和塔德摩尔-拉马诺维奇(Tadmor Ramanovich)与谷歌研究院的科学家阿隆-列夫科维奇(Alon Levkovitch)、丘拉尤斯-阿萨瓦罗翁猜(Chulayuth Asawaroengchai)以及谷歌 DeepMind 的丁一凡(Yifan Ding)、海格-禅(Heiga Zen)于 2023 年 6 月共同撰写了一篇论文,详细介绍了 Translatotron 3 的功能。
研究小组将 Translatotron 3 的西英翻译(双向)性能与使用 ASR、无监督 MT 和 TTS 的级联 S2ST 系统进行了比较。
作者写道:”Translatotron 3 在翻译质量、说话人相似度和语音质量等各方面的表现都远远优于基准。它在会话语料库中表现尤为突出。此外,Translatotron 3 还实现了与地面真实音频样本相似的语音自然度。”
未来的工作–可能包括 Translatotron 4 的推出–也许会探索更多的语言、零样本语音翻译配合反向翻译,以及不同类型语音数据的反向翻译,如嘈杂语音和来自资源有限语言的数据。
(机器翻译,轻度译后编辑,仅供参考。)
编辑:刘煜珍