在2024年2月10日的论文中,一组来自新加坡南洋理工大学和芯片巨头英伟达的研究人员介绍GenTranslate。根据他们的说法,GenTranslate是一种用于翻译任务的新颖生成范式,它利用大语言模型(LLMs)通过生成不同的翻译利用丰富信息,产生更好的结果。研究人员解释说,传统的语音翻译(ST)和机器翻译(MT)模型采用典型的集束搜索算法,并选择最优解作为最终输出。
这意味着当提供源语言的输入语音或文本时,这些模型使用集束搜索解码执行到目标语言的翻译,包含多个潜在翻译的N个最佳假设的列表。随后,他们选择最可能的翻译作为输出(称为最优解)。
然而,这种方法可能会丢弃存在于更广泛的替代假设(范围从第二到N-best)中的有价值的语义信息,这可以提高生成的翻译的准确性。研究人员将典型的最优假设选择描述为“次优”。GenTranslate改进了翻译任务中传统的波束搜索解码和top-1假设选择。通过使用大语言模型,它考虑不同的翻译候选(N个最佳假设)来生成一个单一的,高质量的翻译。具体来说,不同的N-最佳假设产生的基础ST或MT模型被输入LLM。LLM利用其语言知识和推理能力,通过处理不同的翻译版本来捕捉输入的细微差别和上下文,从而提高翻译准确性,从而提高翻译质量。这种方法确保最终的翻译结果受益于N-best列表中多个翻译版本中包含的丰富信息。“我们利用LLMs整合N-best列表中的不同翻译版本,以生成信息丰富、质量更高的翻译结果,”他们说。
研究人员使用由Meta在2023年8月发布的多模态模型SeamlessM4T作为GenTranslate系统中ST和MT任务的基础模型,它提供了文本和语音翻译,适用于数十种语言。为了支持GenTranslate的LLM微调,他们发布了一个名为HypoTranslate的新数据集,包含近60万对N最佳假设和11种语言的基本事实翻译,为LLM提供了一组多样化的示例供其学习。该模型通过在训练期间利用基本真实翻译作为参考点来学习将N个最佳假设与精确翻译对齐。这意味着在训练阶段,模型由实际的正确翻译引导,以学习如何根据它考虑的各种假设生成准确的输出。
有效性和普遍性
根据研究人员的说法,GenTranslate显示了在各种基线、任务(ST和MT)、测试数据集(FLEURS,WMT)和语言方向(X→英和英→X)方面的改进,验证了该方法的“有效性”和“通用性”。“在各种ST和MT基准上的实验表明,我们的GenTranslate明显优于最先进的模型,”他们说。对于语音翻译——在这项任务中,他们研究了端到端ST和级联ASR+MT——在FLEURS和CoVoST-2数据集上评估了GenTranslate模型从语言X翻译到英语以及从英语翻译到语言X的性能。GenTranslate在Whisper、AudioPaLM2和无缝M4T-Large,实现了对性能最好的SeamlessM4T-Large的显著改进。此外,对端到端ST和级联ASR+MT方法进行了比较,级联系统优于端到端系统。对于机器翻译,在X→英语MT的FLORES数据集和英语→X MT的WMT测试集上进行评估。GenTranslate实现了最先进的性能,在除日语→英语之外的所有语言方向都取得了持续的收益,超过了ALMA、BigTranslate和NLLB等竞争对手。研究人员把他们的成果在GitHub上开源。作者:胡玉辰,陈晨,杨超汉,李瑞哲,张东,陈哲怀,Eng Siong Chng
机器翻译,轻度译后编辑,仅供参考。
编辑:张梓琦