大型语言模型如何打败“经典”机器翻译

分享

其他推荐

在2024年1月17日一则报道上,一组来自澳门大学、伦敦大学学院(UCL)和腾讯人工智能实验室的研究人员探索了大型语言模型(LLMs)反对“经典”机器翻译(MT)挑战的表现。

最初由Philipp Koehn和Rebecca Knowles在2017年提出的六个机器翻译挑战包括领域不匹配、并行数据量、稀有词预测、长句翻译、作为单词对齐的注意力模型和次优波束搜索。在他们的实验中,研究人员使用了Llama2-7b模型,重点关注德语到英语的语言对。他们解释说,“英语和德语是Llama2预训练数据中的高资源语言,这确保了模型对这两种语言的熟练程度。”他们发现,在主要语言的预训练过程中,LLMs减少了对并行数据的依赖,并改善了长句和整个文档的翻译。然而,领域不匹配和稀有词预测等挑战依然存在。与神经机器翻译模型不同,LLMs面临着新的挑战:低资源语言的翻译和人类一致的评估。

文档级

具体来说,研究人员发现,在高资源语言的预训练期间,LLMs减轻了对双语数据的依赖,即使是少量的并行数据也能提高翻译性能。令人惊讶的是,并行数据的增加仅产生边际改善并且在某些情况下LLMs翻译系统性能的下降,这挑战了更多并行数据提高翻译质量的普遍观点。研究人员认为与持续预训练相比,监督微调是一种利用额外并行数据更有利的方法。研究人员表示,研究界应该“考虑如何有效地利用并行数据来增强LLMs翻译系统,从而为未来的研究提供一个潜在的方向,以优化双语知识,从而利用LLMs提高机器翻译性能”。另一个面临的挑战是长句的翻译,这是机器翻译系统的一个重大挑战。LLMs展示了有效应对这一挑战的能力,在翻译少于80个单词的句子方面表现出色,并且始终在大约500字文档级别表现良好。他们说:“LLMs在翻译扩展句子和整个文档方面表现出色,这凸显了它们作为解决长句子和文档级翻译任务相关挑战的有前途的解决方案的有效性。”

未解决的挑战

研究人员探索了LLMs的丰富知识是否可以解决翻译任务中的领域不匹配问题。虽然LLMs在域内翻译任务中表现出强大的性能,但它们在域外翻译任务中的进展有限,遇到了术语不匹配、风格差异和幻觉预测稀有词在大语言模型领域仍然是另一个重大挑战,稀有词预测不准确会导致翻译中的遗漏。研究人员强调了这一问题的持久性和未解决性,强调了其在该领域的重要性。

结果喜忧参半

他们还探讨了词对齐,包括在给定的翻译对中识别具有相似语义信息的词对。研究人员测试了从LLMs注意力权重中提取单词对齐的可行性,并发现这不是一个可行的选择。尽管如此,他们表示这个过程为模型的可解释性提供了有价值的见解。在推理的背景下,两个主要问题是推理策略——包括波束搜索和采样——以及由于LLMs的异常大小而导致的推理效率,正如研究人员解释的那样。他们首先测试了波束搜索和采样的性能差异,他们发现波束搜索在LLMs中不一定是次优的。在推理效率方面,他们发现LLMs平均需要30秒,而MT模型需要0.3秒,这引起了对需要快速翻译的场景中实时部署的担忧。“LLMs较长的推理时间可能会阻碍它们在需要快速翻译的场景中的实时部署,”他们说。

新挑战

除了这六个“经典”MT挑战之外,他们还确定了LLMs领域的两个新挑战。一个是预训练阶段未充分表征的语言对的翻译质量,另一个是关于翻译质量的评估。研究人员发现,翻译绩效受到每种语言可用资源的显著影响,强调在LLMs预训练期间需要多样化和平衡的数据集,以确保跨语言的公平绩效。评价问题也凸显出来。他们使用自动(BLEU和COMET)和人类评估指标测试了LLMs的质量,发现它们之间存在中度负相关。这强调了结合两种评估方法的重要性,并表明当前的指标可能无法完全捕捉人类评估者所欣赏的细微差别。根据研究人员的说法,这需要进一步的研究来发展和完善评价方法以符合人类的偏好,尤其是当语言模型变得更加复杂和强大的时候。他们说:“这种以人为中心的评估方法对于确保我们的翻译模型不仅在技术上熟练,而且在实际中有用,并为最终用户所接受是至关重要的。”最后,研究人员呼吁未来的研究将重点放在完善评估方法和更先进模型的测试方法上。

原文链接

 

(机器翻译,轻度译后编辑,仅供参考。)

编辑:曾钰璇

Was it helpful ?