在2024年1月17日的一篇论文中,来自澳门大学、伦敦大学学院(UCL)和腾讯人工智能实验室的研究人员探讨了大型语言模型(LLMs)在面对“经典”机器翻译(MT)挑战时的表现。
这六个MT挑战最初由Philipp Koehn和Rebecca Knowles于2017年提出,包括领域不匹配、平行数据量、罕见词预测、长句翻译、注意力模型作为词对齐和次优的波束搜索。
在他们的实验中,研究人员使用了Llama2-7b模型,重点关注德语到英语的语言对。他们解释说,“英语和德语是Llama2预训练数据中的高资源语言,这确保了模型在这两种语言上的熟练程度。”
他们发现,在主要语言的预训练过程中,LLMs减少了对平行数据的依赖,并改善了对长句和整个文档的翻译。然而,领域不匹配和罕见词预测等挑战仍然存在。与神经机器翻译模型不同,LLMs面临新的挑战:低资源语言的翻译和与人工对齐的评估。
文档级
具体而言,研究人员发现,对于高资源语言,在预训练过程中,LLMs减轻了对双语数据的依赖,即使是少量的平行数据也能提升翻译性能。令人惊讶的是,增加平行数据的丰富性仅带来了微小的改善,在某些情况下甚至导致了LLM翻译系统性能的下降,挑战了更多平行数据提高翻译质量的常见信念。研究人员建议,与继续预训练相比,监督微调是更有利于利用额外平行数据的方法。
研究人员表示,研究界应该“考虑如何有效利用平行数据来增强LLM翻译系统,从而为未来研究提供一个潜在的方向,以优化双语知识,以期通过LLM实现更好的机器翻译性能。”
另一个被解决的挑战是长句的翻译,这对于机器翻译系统来说是一个重要的障碍。LLMs展示了有效应对这一挑战的能力,在翻译少于80个单词的句子方面表现出色,并在大约500个单词的文档级别上表现出一贯的良好性能。
“LLMs在翻译长句和整个文档方面表现出色,强调了它们作为解决与长句和文档级别翻译任务相关挑战的有效解决方案的潜力,”他们说道。
未解决的挑战
研究人员探讨了LLMs丰富知识是否能够解决翻译任务中的领域不匹配问题。虽然LLMs在领域内翻译任务中表现出强大的性能,但在领域外任务中的进展较为温和,面临术语不匹配、风格差异和幻觉等挑战。
在LLMs领域内,对罕见词的预测仍然是另一个重要挑战,导致翻译中的遗漏。研究人员强调了这一问题的持续和未解决性质,并强调了它在该领域的重要性。
混合结果
研究人员还探讨了词对齐,包括在给定的翻译对中识别具有相似语义信息的词对。研究人员测试了从LLM注意力权重中提取词对齐的可行性,结果显示这并非一个可行的选择。尽管如此,他们表示该过程为模型的可解释性提供了有价值的见解。
在推断的背景下,有两个主要问题是推断策略,包括波束搜索和抽样,以及由于LLMs异常大小而导致的推断效率,正如研究人员所解释的。他们首先测试了波束搜索和抽样的性能差异,发现波束搜索在LLMs中未必是次优的。
在推断效率方面,他们发现与MT模型的0.3秒相比,LLMs需要平均30秒的时间,引发对在需要快速翻译的场景中实时部署的担忧。他们说:“LLMs较长的推断时间可能妨碍它们在需要快速翻译的场景中的实时部署,”。
新挑战
除了这六个“经典”的机器翻译挑战之外,研究人员在LLMs领域内还确定了两个新挑战。一个涉及到在预训练阶段未充分表示的语言对的翻译质量,另一个涉及到评估翻译质量。
研究人员发现,翻译性能受每种语言可用资源的显著影响,强调了在LLMs的预训练过程中需要一个多样且平衡的数据集,以确保在各种语言之间实现公平性。
评估问题也成为关注焦点。他们使用了自动评估方法(BLEU和COMET)以及人工评估指标来测试LLMs的质量,并发现它们之间存在中等程度的负相关性。这强调了结合两种评估方法的重要性,并表明当前的评估指标可能无法完全捕捉到人工评估者欣赏的细微差别。
根据研究人员的说法,这呼吁进一步研究以开发和完善与人类偏好一致的评估方法,特别是在语言模型变得更加复杂和强大的情况下。“这种以人为中心的评估方法对于确保我们的翻译模型不仅在技术上熟练,而且在实际中对最终用户有用和可接受至关重要。”他们表示。
最后,研究人员呼吁未来的研究要专注于完善评估方法,并在更先进的模型上测试不同的方法。
作者:庞建辉、叶方华、王龙跃、余殿、黄飞、石树明、涂兆鹏。
(机器翻译,轻度译后编辑,仅供参考。)
编辑:刘煜珍