在2024年4月11日的一篇论文中,马里兰大学的Dayeon Ki和Marine Carpuat证明,用外部质量反馈指导大型语言模型(LLMs)可以提高机器翻译译后编辑(MTPE)的能力。
作者承认,以前的研究探索了将LLMs应用于自动译后编辑(PEMT)的潜力。然而,他们的工作在几个方面有所不同。
首先,他们使用外部反馈来指导LLMs改进翻译,而不是依赖于模型内自生成的反馈。其次,他们提供了使用任何模型的译后编辑输出的选项,而不限于改进LLM自己的翻译。
第三,他们使用开源的LLaMA-2,而不是像GPT-3.5、GPT-4或PaLM-2这样最大的封闭LLMs。
具体来说,他们对7B和13B变体进行了实验,认为“值得探索更中等规模的LLM(例如,7B, 13B)在多大程度上可以执行译后编辑,因为这样的模型在实际应用中训练、运行和部署的成本更低。”此外,他们强调,使用开放模型有助于结果的可重复性,并鼓励其他人在此基础上进行工作。
Ki和Carpuat考虑了两种指导语言模型编辑机器翻译错误注释的策略:提示和用指令进行微调。
首先,他们使用不同形式、不同粒度的反馈来推动LLaMA-2:
-
一般反馈:这种级别的反馈不提供具体的细节,但会提示模型在没有任何具体外部指导的情况下改进初始翻译。
-
参考反馈:在此类别中,向模型提供单个标量MQM分数(从0到100),反映初始翻译的总体质量。这个分数可以帮助模型了解翻译的质量,并做出相应的改进。
-
细粒度的反馈:这是最详细的反馈级别,其中向模型提供了特定的错误注释。这些注释可以包括有关错误范围、错误类型和严重级别的信息。细粒度的反馈既可以由人工注释,也可以由自动注释工具注释。
具体来说,他们考虑了三种不同的错误注释来源:(i)来自MQM WMT22数据集的人工注释,(ii)由InstructScore生成的自动注释,一个可解释的文本生成评估指标,微调LLaMA以预测MQM风格的细粒度错误注释,以及(iii)由xCOMET提供的自动注释,一个自动评估和质量估计工具,微调XLM-RoBERTa以预测MQM和MT质量的直接评估注释。
改进的质量和译后编辑工作
他们着重研究了三种语言对(即汉语-英语、英语-德语和英语-俄语),发现鼓励LLMs使用反馈来编辑MT能够持续提高翻译质量和后期编辑工作。
Ki和Carpuat注意到,细粒度的错误反馈似乎比一般反馈的好处有限,而基于分数的反馈在MT输出方面的改善最小。
额外的性能提升和自然输出
接下来,他们用细粒度的错误注释对LLaMA-2进行了微调,发现微调可以“额外提高性能”。
他们指出,虽然提示实验并没有显示出对特定反馈粒度水平的明确偏好,但与通用反馈的微调相比,细粒度反馈的微调始终导致更高的翻译质量。
他们说:“这表明微调可以让模型更有效地利用细粒度的反馈。”
此外,人工评估表明,微调模型不仅可以修复目标错误,还可以增强目标语言的自然度。
他们说:“我们的分析表明,用细粒度的反馈提示经过微调的LLMs不仅有助于修复提示中突出显示的错误,而且还能产生更自然的输出。”
Ki和Carpuat总结道:“这些结果清楚地表明,后期编辑MT输出不需要最大的专有LLM模型,可以用较小的开源模型完成。”
他们计划进一步探索如何创建一个工作流程,可以自动评估任何MT输入,并决定是否需要译后编辑以及应该如何进行译后编辑,以及确定最合适的反馈机制。此外,他们希望进一步探索如何最大限度地减少对人工注释的依赖,“人工注释在大规模获取时成本很高”。
Ki和Carpuat在GitHub上发布了他们的代码、数据集和模型检查点。
机器翻译,轻度译后编辑,仅供参考。
编辑:陈驭格