莫纳什大学的吴明豪、吴志庄、曲丽珍和Gholamreza Haffari,以及来自谷歌的George Foster在2024年1月12日发表了文章,探索了大型语言模型(LLMs)用于文档级机器翻译(MT)的成果。
他们使用LLAMA2-7B、BLOOM-7B和VICUNA-7B为主干,微调并测试了中等大小的大型语言模型(涉及7B参数),包括了9个语言对(英语、阿拉伯语、德语、法语、意大利语、日语、韩语、荷兰语、罗马尼亚语和中文)的18个翻译任务。此外,他们将这些微调过的大型语言模型与最先进的机器翻译模型进行了比较,包括NLLB和Google Translate,并于最先进的大型语言模型进行了比较,如GPT-3.5-TURBO和GPT-4-TURBO。为了评估翻译质量,他们使用了BLEU、SacreBLEU和COMET metrics。作者强调,以前的研究通过提示技术集中于文档级机器翻译的大型语言模型,而他们的研究集中于分析在文档级机器翻译背景下参数高效微调(PEFT)和完全微调(FFT)方法对中等大小的大型语言模型的有效性。PEFT涉及使用更少量的训练数据来微调大型语言模型,以实现更高的性能,同时需要的微调示例更少。相比之下,FFT涉及微调整个训练数据集,通过允许模型从大量训练数据中学习来实现最佳性能。作者使用这两种策略对这三个中等规模的大型语言模型进行了微调,比较了它们的性能,以了解它们对文档级机翻任务中整体性能和数据效率的影响。他们遵循两阶段训练策略:最初对单语文本进行微调,然后对平行文本进行第二阶段微调。根据作者的说法,“这项全面的研究旨在促进对大型语言模型在文档级机器翻译任务中的理解并提高其效率。”
总体性能和脱靶翻译
他们发现GPT-4-TURBO和GPT-3.5-TURBO优于所有其他模型。然而,当从其他语言翻译成英语时,中等规模的大型语言模型在某些情况下表现出优越的翻译性能,甚至超过GPT-4-TURBO。然而,尽管在这些语言的双语语料库中进行了专门的微调,但在其他语言中,他们严重遭受了脱靶翻译问题——即提供了不同于目标语言的语言翻译。该研究还对翻译错误分布进行了深入分析,揭示了基于大型语言模型的文档级机器翻译模型的优势和局限性。作者指出,当实现类似的性能时,基于大型语言模型的文档级机器翻译模型表现出较少的与上下文相关或无关的错误。他们说:“对机器翻译的大型语言模型进行微调是一个很有前途的研究方向,特别是在提高文档级翻译质量方面。”与FFT方法相比,PEFT方法表现出更好的整体性能。然而,FFT方法显示出更好的数据效率,只需要总数据集的大约1%来匹配在整个训练集上训练的模型的性能,而PEFT方法需要总数据集的10%来实现可比的结果。
提示方法
作者强调了提示方法在微调中的重要性,旨在解决两个研究问题:语境结构如何影响翻译质量,以及自然语言指令如何影响翻译质量。他们强调,提示在大型语言模型的翻译表现中发挥着重要作用,但它们的有效性在不同的模式中会有所不同。具体来说,他们发现,将适当的上下文结构与额外的上下文信息和自然语言指令相结合的结构良好的提示可以显著提高模型性能。然而,当使用指令调整的语言模型作为模型主干时,自然语言指令不太有效。他们的分析还揭示了基于大型语言模型的文档级机器翻译模型可以处理不同于训练领域的数据,显示了翻译领域外文本的前景。此外,他们研究了从一种语言对之间的翻译中获得的翻译能力是否可以转移到其他语言对,并发现在平行文档的微调过程中,大型语言模型更有可能激活其固有的翻译能力,而不是发展新的翻译技能。作者得出结论:“这项研究的发现不仅揭示了基于大型语言模型的文档级机器翻译模型的优势和局限性,而且为文档级机器翻译的未来研究提供了基础。”
机器翻译,轻度译后编辑,仅供参考;编辑:陈驭格。