2024 年 7 月 31 日,ByteDance 的跨语言代理团队展示了一个旨在提供 “高质量 “和 “类人 “同声传译(SiST)的系统。
研究人员强调了 SiST 的复杂性,称其为 “翻译领域最具挑战性的任务之一”。尽管学术和商业 SiST 模型取得了显著进步,但他们承认 “翻译质量仍然远远不能令人满意”,这凸显了对更有效解决方案的需求。
受大型语言模型(LLM)在机器翻译(MT)和语音翻译中取得成功的启发,ByteDance 团队利用 LLM 来应对 SiST 挑战。他们的解决方案是通过系统地执行各种操作来执行同声传译(”CLASI”)的跨语言代理。
CLASI 通过结构化的五步流程运行,首先是处理输入的音频数据。为了模仿专业人工口译员(他们通常根据自然停顿、标点符号和含义将句子分解成更小的 “语义块”),CLASI 采用了一种 “数据驱动策略学习 “方法。
通过对人类标注的语音数据进行训练,CLASI 学会了如何识别语音中的自然断句,并开发出一套强大的 “读写策略”,指导它在语音过程中何时进行听(读),何时进行译(写)。
第二步,CLASI 利用多模式检索器从外部知识库中获取相关信息。
第三步是从上一轮存储器中检索上下文,该存储器存储了之前翻译的数据。研究人员表示,通过将从外部知识库中检索到的信息和翻译记忆库中的上下文添加到 LLM 代理的提示中,CLASI 动态地整合了相关知识,大大提高了翻译的准确性和连贯性。
在处理输入和检索相关信息后,CLASI 会生成转录(如有需要)、翻译输出以及表示当前翻译轮结束时间的时间戳。该时间戳允许系统确定下一轮音频输入的开始位置。然后,它会根据新的翻译更新内存,确保为今后的处理保留上下文。然后从第一步开始重新开始下一个语音段的循环。
“研究人员说:”在 LLM 的支持下,我们的方法可以通过考虑输入音频、历史背景和检索信息来生成容错翻译。
表演 “接近人类的翻译”
为了评估 CLASI 的性能,团队开发了一种名为 “VIP”(多功能口译性能)的新评估指标,用于衡量在同声传译/口译过程中能够成功传达给听众的信息量。
研究人员认为,VIP 更好地反映了 SiST 系统在实际应用场景中的性能。他们将 CLASI 与其他顶级同声传译系统(包括商用系统和开源系统)进行了对比测试,发现 CLASI 的性能比这些系统 “高出很多”。
CLASI 的中译英和英译中 VIP 分值分别为 81.3% 和 78.0%。相比之下,最先进的商业或开源系统的 VIP 分数分别只有 35.4% 和 41.6%。研究人员说,即使在极具挑战性的数据集上,其他系统的 VIP 值也不足 13%,而 CLASI 的 VIP 值却高达 70%。
研究人员大胆地指出:”这些结果接近人类口译员的表现,他们通常能达到 80% 左右的 VIP 率。
提高口译员的效率
研究人员认为,该系统可应用于各种场景,促进跨语言交流,如国际会议和日常会议,使与会者能够理解不同语言的发言。
研究人员补充说,CLASI 还可以作为系统级翻译模块,通过提供实时翻译,增强用户观看外语视频的体验。
在在线游戏领域,CLASI 可以帮助使用不同语言的玩家之间进行交流,营造更具包容性的游戏环境。此外,研究人员称,凭借其 “人类同等性能”,它可以提高专业人类口译员的效率。
“研究人员总结说:”有了 CLASI 强大的翻译能力,我们相信它能进一步实现跨语言交流,在世界各地实现无缝沟通。
展望未来,ByteDance 团队计划扩展 CLASI,以支持更多语言,包括低资源语言。
GitHub 上提供了演示和人工标注的测试集。