翻译技术资讯-谷歌推出Translatotron3投入语音翻译战场

其他推荐

详细议程 | 2025中国翻译协会翻译技术专业委员会年会即将举办

2026年2月3日

双十二特惠｜99元“外语+”技术年度会员，前100位报名即赠AIPE最新教材

2026年2月3日

行业动态 | 速看！谷歌发布开源医学语音转文本模型MedASR

2026年2月3日

行业洞见 | 速看！语言类就业市场如何？看看点击量名列前茅的职位有哪些

2026年2月3日

资源干货 |《如何增强语言技能》：AI时代，翻译教育的增强之道

2026年2月3日

Luna
19 12 月, 2023
1:23 下午

子涵同学，看图猜猜老师今天会讲些什么？

难道就是！传说中……谷歌公司Transalation翻译系统吗!？怎么上面还有数字3呢？

这可是谷歌最近的大动作哦！打开小脑袋，咱们今日份学习发车！

PART

谷歌的 Translatotron 翻译系统升级回归了——其创造者自豪地称之为 “首个完全无监督的端到端直接语音翻译模型”。Translatotron 最初于 2019 年 4 月亮相，是改进传统语音到语音翻译（S2ST）模式的早期概念验证。

标准的”级联”语音翻译系统包括四个步骤：自动语音识别 (ASR)、语音到文本 (STT) 转录、机器翻译(MT) 和文本到语音。Translatotron 跳过了文本翻译步骤。

2021 年 7 月推出的 Translatotron 2 优于其原始版本，在翻译质量、语音稳健性和语音自然度方面都与传统级联系统相当。研究人员还加入了防止模型用于生成语音深度伪造的保护措施。

Translatotron 的第三个版本在几个方面对其前身进行了改进，其中最突出的是其无监督 S2ST 架构。该系统还能从单语数据中 “学习” S2ST。

谷歌研究科学家埃利亚·纳克马尼（Eliya Nachman）和软件工程师米歇尔·塔德莫尔·拉马诺维奇（Michelle Tadmor Ramanovich）在 2023 年 12 月 1 日的一篇博文中写道：“这种方法不仅为更多语言之间的翻译打开了大门，而且还为停顿、语速和说话人身份等非文本语音属性的翻译打开了大门。”

激烈的竞争

PART

语音翻译是硅谷的热门话题。2023 年 11 月，谷歌的竞争对手 Meta 发布了自己的人工智能模型 Seamless，据说它可以实时翻译语音，并保语音风格一致。

谷歌引以为豪的是 Translatotron 省略了文本翻译，而 Meta 则宣传 Seamless 能够处理近 100 种输入和输出语言的 ASR 和 STT 翻译。其 STT 翻译可将近 100 种输入语言翻译成 36 种目标语言。作者建议使用反向翻译（即无监督 MT 生成源语言文本的合成翻译），以此消除无监督 S2ST 对双语语音数据集的需求。

Translatotron经历了两个阶段的训练过程。第一部分侧重于自动编码输入，第二部分则训练网络翻译输入（即通过反向翻译）。

纳赫马尼（Nachmani）和塔德摩尔·拉马诺维奇（Tadmor Ramanovich）与谷歌研究院的科学家阿隆·列夫科维奇（Alon Levkovitch）、丘拉尤斯·阿萨瓦罗翁猜（Chulayuth Asawaroengchai）以及谷歌 DeepMind 的丁一凡（Yifan Ding）、海格·禅（Heiga Zen）于 2023 年 6 月共同撰写了一篇论文，详细介绍了 Translatotron 3 的功能。

研究小组将 Translatotron 3 的西英翻译（双向）性能与使用 ASR、无监督 MT 和 TTS 的级联 S2ST 系统进行了比较。

作者写道：“Translatotron 3 在翻译质量、说话人相似度和语音质量等各方面的表现都远远优于基准。它在会话语料库中表现尤为突出。此外，Translatotron 3 还实现了与地面真实音频样本相似的语音自然度。”

未来的工作——可能包括 Translatotron 4 的推出–也许会探索更多的语言、零样本语音翻译配合反向翻译，以及不同类型语音数据的反向翻译，如嘈杂语音和来自资源有限语言的数据。

子涵同学这下理解了吧？

这个翻译系统升级太酷喽！今天也是收获满满的一天呢！

（机器翻译，轻度译后编辑，仅供参考。）原文链接：https://slator.com/google-sends-translatotron-3-into-the-battle-for-speech-translation/

特别说明：本文内容仅供学习交流使用，如有侵权请后台联系小编删除。

– END –

摘译编辑：刘煜珍

推文编辑：袁玉兆

Was it helpful ?

还有问题？我们能帮忙吗？