在2024年4月22日的一篇论文中,来自威廉姆斯学院的Maxim Enis和Mark Hopkins展示了Anthropic于2024年3月发布的大型语言模型(LLM)Claude 3 Opus的出色机器翻译(MT)能力。阿
具体来说,他们展示了Claude在各种语言对中的“尖端”MT能力,包括低资源和非常低资源的语言对,表明潜在地缩小了高资源和低资源语言之间的性能差距。
Enis和Hopkins进行了涉及英语和其他36种语言的实验,其中包括15种高资源语言,17种低资源语言和4种非常低资源语言。每种语言都在eng->xxx和xxx->eng两个方向上进行了评估。
研究发现,在评估语言的25%中,克劳德表现出超过强基线(如NLLB和谷歌翻译)的优势。然而,他们指出,在使用克劳德进行英语翻译时,无论是英译他语还是他语译英,性能存在差异,克劳德在英译中表现出更好的翻译能力。他们指出,克劳德“在英语外翻译方面仍然存在困难”。
研究人员表示,这表明在翻译任务的目标语言不是英语时,监督基线仍然比LLM具有优势。
此外,克劳德展现出“显著的资源效率”——即多语言翻译引擎的性能在多大程度上依赖于语言对的资源水平(如高、低、非常低)——在英译时表现出。他们指出,“克劳德可能是第一个在MT中展示资源效率的LLM”,相比强NMT基线,展示了“作为低资源翻译器的特殊潜力”。
Enis和Hopkins将克劳德的性能与各种数据集进行了基准测试,包括FLORES-200和新创建的数据集,这些数据集在克劳德看来是“可验证未见过”的。研究人员发现FLORES-200数据集在两个翻译方向上存在数据污染的迹象,强调了“为具有未见过的源句和目标句的LLM开发机器翻译基准的重要性”。
LLM驱动的机器翻译的未来时代
尽管有着令人鼓舞的发现,但Enis和Hopkins强调了LLM成本和推理时间带来的限制,阻碍了它们在机器翻译任务中的广泛应用。“尽管LLM在某些翻译方向上可能实现了最先进的结果,但计算推理的成本、时间和能量使用限制了它们作为翻译器的应用”,他们说。
为了解决这一挑战,他们探索了一种称为知识蒸馏的技术,该技术涉及将复杂模型(教师模型)的知识和专业知识转移至较小的模型(学生模型),并提出了LLM的翻译能力,比如在这种情况下的克劳德,可以用来推动传统的神经机器翻译技术的最新进展。
Enis和Hopkins利用Claude 3 Opus翻译句子和文档生成了约鲁巴语-英语平行语料库,用于知识蒸馏。生成的合成数据用于训练较小的模型,这些模型表现出与NLLB-54B和谷歌翻译等强基线相当或超过的性能。
Enis和Hopkins建议将蒸馏技术应用到LLM中,创建超越当前最先进技术的紧凑型NMT模型。他们还相信进一步改进和优化这些方法可能会带来更好的性能。此外,他们的方法可以应用于更多的语言对,无论当前是否受到翻译系统的支持。
总之,他们强调他们的研究结果“指向了LLM驱动的机器翻译的未来时代”。
(机器翻译,轻度译后编辑,仅供参考)
编辑:刘煜珍