翻译技术资讯-谷歌推出Translatotron3投入语音翻译战场

子涵同学,看图猜猜老师今天会讲些什么?
难道就是!传说中……谷歌公司Transalation翻译系统吗!?怎么上面还有数字3呢?
这可是谷歌最近的大动作哦!打开小脑袋,咱们今日份学习发车!

 

PART
01

谷歌的 Translatotron 翻译系统升级回归了——其创造者自豪地称之为 “首个完全无监督的端到端直接语音翻译模型”。Translatotron 最初于 2019 年 4 月亮相,是改进传统语音到语音翻译(S2ST)模式的早期概念验证。

标准的”级联”语音翻译系统包括四个步骤:自动语音识别 (ASR)、语音到文本 (STT) 转录、机器翻译(MT) 和文本到语音。Translatotron 跳过了文本翻译步骤。

2021 年 7 月推出的 Translatotron 2 优于其原始版本,在翻译质量、语音稳健性和语音自然度方面都与传统级联系统相当。研究人员还加入了防止模型用于生成语音深度伪造的保护措施。

Translatotron 的第三个版本在几个方面对其前身进行了改进,其中最突出的是其无监督 S2ST 架构。该系统还能从单语数据中 “学习” S2ST。

谷歌研究科学家埃利亚·纳克马尼(Eliya Nachman)和软件工程师米歇尔·塔德莫尔·拉马诺维奇(Michelle Tadmor Ramanovich)在 2023 年 12 月 1 日的一篇博文中写道:“这种方法不仅为更多语言之间的翻译打开了大门,而且还为停顿、语速和说话人身份等非文本语音属性的翻译打开了大门。”

激烈的竞争
PART
02

语音翻译是硅谷的热门话题。2023 年 11 月,谷歌的竞争对手 Meta 发布了自己的人工智能模型 Seamless,据说它可以实时翻译语音,并保语音风格一致。

谷歌引以为豪的是 Translatotron 省略了文本翻译,而 Meta 则宣传 Seamless 能够处理近 100 种输入和输出语言的 ASR 和 STT 翻译。其 STT 翻译可将近 100 种输入语言翻译成 36 种目标语言。作者建议使用反向翻译(即无监督 MT 生成源语言文本的合成翻译),以此消除无监督 S2ST 对双语语音数据集的需求。

Translatotron经历了两个阶段的训练过程。第一部分侧重于自动编码输入,第二部分则训练网络翻译输入(即通过反向翻译)。

纳赫马尼(Nachmani)和塔德摩尔·拉马诺维奇(Tadmor Ramanovich)与谷歌研究院的科学家阿隆·列夫科维奇(Alon Levkovitch)、丘拉尤斯·阿萨瓦罗翁猜(Chulayuth Asawaroengchai)以及谷歌 DeepMind 的丁一凡(Yifan Ding)、海格·禅(Heiga Zen)于 2023 年 6 月共同撰写了一篇论文,详细介绍了 Translatotron 3 的功能。

研究小组将 Translatotron 3 的西英翻译(双向)性能与使用 ASR、无监督 MT 和 TTS 的级联 S2ST 系统进行了比较。

作者写道:“Translatotron 3 在翻译质量、说话人相似度和语音质量等各方面的表现都远远优于基准。它在会话语料库中表现尤为突出。此外,Translatotron 3 还实现了与地面真实音频样本相似的语音自然度。”

未来的工作——可能包括 Translatotron 4 的推出–也许会探索更多的语言、零样本语音翻译配合反向翻译,以及不同类型语音数据的反向翻译,如嘈杂语音和来自资源有限语言的数据。

 
子涵同学这下理解了吧?
这个翻译系统升级太酷喽!今天也是收获满满的一天呢!
 (机器翻译,轻度译后编辑,仅供参考。)原文链接:https://slator.com/google-sends-translatotron-3-into-the-battle-for-speech-translation/
特别说明:本文内容仅供学习交流使用,如有侵权请后台联系小编删除

– END –

摘译编辑:刘煜珍

推文编辑:袁玉兆

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注