2024年7月31日,ByteDance的跨语言代理团队展示了一个旨在提供“高质量”和“类人”同步语音翻译(SiST)的系统。
研究人员强调了SiST的复杂性,称其为“翻译领域最具挑战性的任务之一”。尽管学术和商业SiST模型取得了显著进步,但他们承认,“翻译质量仍然远远不能令人满意”,这凸显了对更有效解决方案的需求。
受大语言模型(LLMs)在机器翻译(MT)和语音翻译中取得成功的启发,ByteDance团队利用LLMs来应对SiST挑战。他们的解决方案是通过系统执行各种操作来执行同声传译(“CLASI”)的跨语言代理。
CLASI通过结构化的五步流程运行,首先是处理输入的音频数据。为了模仿专业人工口译员,CLASI采用了一种“数据驱动策略学习”方法,人工口译员通常会根据自然停顿、标点符号和含义将句子分解成更小的“语义块”。
通过对人类标注的语音数据进行训练,CLASI学会了如何识别语音中的自然停顿,从而制定出一套强大的“读写策略”,指导CLASI在语音过程中何时进行听(读),何时进行译(写)。
第二步,CLASI利用多模式检索器从外部知识库中获取相关信息。
第三步是从上一轮存储器中检索上下文,该存储器存储了以前翻译的数据。研究人员表示,通过将从外部知识库检索到的信息和翻译记忆库中的上下文添加到LLM代理的提示中,CLASI动态地整合了相关知识,从而显著提高了翻译的准确性和连贯性。
在处理输入和检索相关信息后,CLASI会生成转录(如有需要)、翻译输出和一个时间戳,该时间戳会显示当前翻译回合的结束时间。通过该时间戳,系统可以确定下一轮音频输入的开始时间。然后,系统会用新的翻译更新内存,确保为未来处理保留上下文。然后从第一步开始循环,处理下一个语音片段。
研究人员说:“在LLM的支持下,我们的方法可以通过考虑输入音频、历史语境和检索信息来生成容错翻译。”
性能“接近人类口译员”
为了评估CLASI的性能,研究小组开发了一种名为“VIP”(多功能口译性能)的新评估指标,用于衡量在同声传译/口译过程中能够成功传达给听众的信息量。
研究人员认为,VIP更好地反映了SiST系统在真实世界场景中的性能。他们将CLASI与其他顶级同声传译系统(包括商用系统和开源系统)进行了对比测试,发现CLASI的表现“明显优于”这些系统。
CLASI在中译英和英译中的VIP评分分别达到81.3%和78.0%。相比之下,最先进的商业或开源系统的VIP分数分别只有35.4%和41.6%。研究人员说,即使在极具挑战性的数据集上,其他系统的VIP分数低于13%,CLASI的VIP分数也保持在70%。
研究人员甚至表示,“这些结果接近人类口译员的表现,他们的VIP通常达到80%左右”。
提高口译员的效率
研究人员认为,该系统可应用于各种场景,促进跨语言交流,如国际会议和日常会议,使与会者能够理解不同语言的发言。
研究人员补充说,CLASI还可以作为系统级翻译模块,通过提供实时翻译,提升用户观看外语视频的体验。
在在线游戏领域,CLASI可以帮助使用不同语言的玩家之间进行交流,营造更具包容性的游戏环境。此外,研究人员称,CLASI的“人类平等性能”可以提高专业人工翻译的效率。
“研究人员总结道:”凭借CLASI强大的翻译能力,我们相信它能进一步实现跨语言交流,让全世界不同地方的人们无缝沟通。
展望未来,ByteDance团队计划扩展CLASI,以支持更多语言,包括低资源语言。
已于GitHub提供了演示和人工标注的测试集。
(机器翻译,轻度译后编辑,仅供参考。)
编辑:陈驭格