ByteDance推出“类人”语音翻译系统

性能“接近人类口译员”
提高口译员的效率

其他推荐

Meta携手UNESCO，推动包容性人工智能发展

2025年4月9日

The Language Technology Partner Program: Meta’s Push fo

一周速览【0317-0323】｜翻译管理与大语言模型最新发展

2025年4月9日

一周速览【0317-0323】｜翻译管理与大语言模型最新发展一起回顾上周动态~ 周一 DeepL通过下一代L

大英图书馆如何应对翻译档案这一艰巨任务？

2025年4月9日

How the British Library is approaching the delicate tas

打破语言偏见！首款欧洲葡语AI翻译模型诞生

2025年4月1日

Machine translation (MT) models often struggle with lin

一文看懂！大语言模型因果推理能力评估新框架

2025年3月25日

New Research from Welo Data Establishes a Multilingual

所有人都在谈论的AI新秀——Manus，实测如何？

2025年3月25日

Everyone in AI is talking about Manus. We put it to the

流行歌手为何“空降”影坛？

2025年3月25日

近年来，乐坛明星大量涌入影视行业，纷纷探索破圈新招。从A妹（Ariana Grande）参与《魔法坏女巫》的演

中国“小狗山”走红互联网，掀起全民打卡热潮！

2025年3月24日

最近，“小狗山”的故事不仅在国内引发热议，还登上了《新闻周刊》（Newsweek）等外媒头条！今天我们就来学习

别发愁啦，你的论文助手DeepSeek已上线

2025年3月24日

AI时代，便捷指令百花齐放。AI新秀DeepSeek 凭借其功能强大，输出内容人性化，一下子就能get到用户真

谷歌、Unbabel 通过 WMT24++ 将关键AI翻译基准扩展到 55 种语言

2025年3月22日

Google, Unbabel Expand Key AI Translation Benchmark to

2024年7月31日，ByteDance的跨语言代理团队展示了一个旨在提供“高质量”和“类人”同步语音翻译（SiST）的系统。

研究人员强调了SiST的复杂性，称其为“翻译领域最具挑战性的任务之一”。尽管学术和商业SiST模型取得了显著进步，但他们承认，“翻译质量仍然远远不能令人满意”，这凸显了对更有效解决方案的需求。

受大语言模型（LLMs）在机器翻译（MT）和语音翻译中取得成功的启发，ByteDance团队利用LLMs来应对SiST挑战。他们的解决方案是通过系统执行各种操作来执行同声传译（“CLASI”）的跨语言代理。

CLASI通过结构化的五步流程运行，首先是处理输入的音频数据。为了模仿专业人工口译员，CLASI采用了一种“数据驱动策略学习”方法，人工口译员通常会根据自然停顿、标点符号和含义将句子分解成更小的“语义块”。

通过对人类标注的语音数据进行训练，CLASI学会了如何识别语音中的自然停顿，从而制定出一套强大的“读写策略”，指导CLASI在语音过程中何时进行听（读），何时进行译（写）。

第二步，CLASI利用多模式检索器从外部知识库中获取相关信息。

第三步是从上一轮存储器中检索上下文，该存储器存储了以前翻译的数据。研究人员表示，通过将从外部知识库检索到的信息和翻译记忆库中的上下文添加到LLM代理的提示中，CLASI动态地整合了相关知识，从而显著提高了翻译的准确性和连贯性。

在处理输入和检索相关信息后，CLASI会生成转录（如有需要）、翻译输出和一个时间戳，该时间戳会显示当前翻译回合的结束时间。通过该时间戳，系统可以确定下一轮音频输入的开始时间。然后，系统会用新的翻译更新内存，确保为未来处理保留上下文。然后从第一步开始循环，处理下一个语音片段。

研究人员说：“在LLM的支持下，我们的方法可以通过考虑输入音频、历史语境和检索信息来生成容错翻译。”

性能“接近人类口译员”

为了评估CLASI的性能，研究小组开发了一种名为“VIP”（多功能口译性能）的新评估指标，用于衡量在同声传译/口译过程中能够成功传达给听众的信息量。

研究人员认为，VIP更好地反映了SiST系统在真实世界场景中的性能。他们将CLASI与其他顶级同声传译系统（包括商用系统和开源系统）进行了对比测试，发现CLASI的表现“明显优于”这些系统。

CLASI在中译英和英译中的VIP评分分别达到81.3%和78.0%。相比之下，最先进的商业或开源系统的VIP分数分别只有35.4%和41.6%。研究人员说，即使在极具挑战性的数据集上，其他系统的VIP分数低于13%，CLASI的VIP分数也保持在70%。

研究人员甚至表示，“这些结果接近人类口译员的表现，他们的VIP通常达到80%左右”。

提高口译员的效率

研究人员认为，该系统可应用于各种场景，促进跨语言交流，如国际会议和日常会议，使与会者能够理解不同语言的发言。

研究人员补充说，CLASI还可以作为系统级翻译模块，通过提供实时翻译，提升用户观看外语视频的体验。

在在线游戏领域，CLASI可以帮助使用不同语言的玩家之间进行交流，营造更具包容性的游戏环境。此外，研究人员称，CLASI的“人类平等性能”可以提高专业人工翻译的效率。

“研究人员总结道：”凭借CLASI强大的翻译能力，我们相信它能进一步实现跨语言交流，让全世界不同地方的人们无缝沟通。

展望未来，ByteDance团队计划扩展CLASI，以支持更多语言，包括低资源语言。

已于GitHub提供了演示和人工标注的测试集。

（机器翻译，轻度译后编辑，仅供参考。）

编辑：陈驭格

原文链接

Was it helpful ?

还有问题？我们能帮忙吗？