经研究发现,经过精细调整的大型语言模型(LLMs)在文档级机器翻译方面表现良好

分享

其他推荐

在2024年1月12日的一份论文中,来自莫纳什大学的Minghao Wu、Thuy-Trang Vu、Lizhen Qu和Gholamreza Haffari以及来自谷歌的George Foster探讨了将大型语言模型(LLMs)调整用于文档级机器翻译(MT)的适应性。

 

他们在18个涉及九种语言对的翻译任务中 fine-tuned 并测试了具有7B参数的中等规模LLMs(英语</>阿拉伯语、德语、法语、意大利语、日语、韩语、荷兰语、罗马尼亚语和中文),使用LLAMA2-7B、BLOOM-7B和VICUNA-7B作为骨架。

 

此外,他们将这些经过精细调整的LLMs与最先进的MT模型(包括NLLB和Google翻译)以及最先进的LLMs(如GPT-3.5-TURBO和GPT-4-TURBO)进行了比较。

为了评估翻译质量,他们采用了BLEU、SacreBLEU和COMET指标。

作者强调,虽然先前的研究侧重于通过提示技术对LLMs进行文档级机器翻译,但他们的研究集中于分析参数高效微调(PEFT)和完全微调(FFT)方法在中等规模LLMs在文档级机器翻译背景下的有效性。

 

PEFT包括使用较少的训练数据对LLMs进行微调,以实现改进的性能,同时需要较少的示例进行微调。相比之下,FFT涉及对整个训练数据集进行微调,通过允许模型从更多的训练数据中学习,以实现最佳性能。

 

作者使用这两种策略对这三个中等规模的LLMs进行了微调,比较它们的性能,以了解它们对文档级机器翻译任务的总体性能和数据效率的影响。他们采用了两阶段训练策略:在单语文本上进行初始微调,然后在平行文本上进行第二次微调。

 

根据作者的说法,“这项综合性研究旨在推动对LLMs在文档级机器翻译任务中的理解并提高其有效性。”

 

总体性能和偏离目标的翻译 

他们发现,GPT-4-TURBO和GPT-3.5-TURBO表现优于所有其他模型。然而,在从其他语言翻译成英语时,中等规模的LLMs在某些情况下表现出更优越的翻译性能,甚至超过了GPT-4-TURBO。然而,尽管在这些语言中进行了专门的双语语料库微调,它们在其他语言中明显遭受偏离目标的翻译问题,即提供与目标语言不同的语言的翻译。

 

该研究还对翻译错误分布进行了深入分析,揭示了基于LLMs的文档级机器翻译模型的优势和局限。作者指出,在实现类似性能时,基于LLMs的文档级机器翻译模型表现出较少的上下文独立和上下文相关错误。他们表示:“为机器翻译微调LLMs是一个有前途的研究方向,特别是用于提高文档级翻译质量。”

 

PEFT方法相较于FFT方法表现出更优越的总体性能。然而,FFT方法显示出更好的数据效率,仅需要总数据集的约1%即可匹配在整个训练集上训练的模型的性能,而PEFT方法则需要总数据集的10%才能达到可比较的结果。

 提示方法 

 作者强调了在微调中提示方法的重要作用,旨在解决两个研究问题:上下文结构如何影响翻译质量?自然语言指令如何影响翻译质量?

 

他们强调提示在LLM性能中起着重要作用,但其效果在不同模型之间可能有所不同。具体而言,他们发现,一个结构良好的提示,将适当的上下文结构与额外的上下文信息和自然语言指令结合起来,可以显著提升模型性能。然而,在使用以指令为基础的语言模型作为模型骨干时,自然语言指令的效果较差。

 

他们的分析还揭示了基于LLMs的文档级机器翻译模型能够处理与训练领域不同的数据,显示了在翻译领域外文本时的潜力。此外,他们调查了通过在不同语言对之间进行翻译获取的翻译能力是否能够转移到其他语言对,发现在平行文档上进行微调时,LLMs更有可能激活其固有的翻译能力,而不是开发新的翻译技能。

 

作者总结道:“这项研究的发现不仅揭示了基于LLMs的文档级机器翻译模型的优势和局限,还为未来在文档级机器翻译领域的研究奠定了基础。”

(机器翻译,轻度译后编辑,仅供参考。)

原文链接

编辑:刘煜珍

Was it helpful ?