在2024年2月2日的论文中,来自约翰霍普金斯大学和微软的机器翻译研究者强调,所谓的黄金标准翻译并不总是“黄金”。
他们引入了一种新的微调方法,称为对比偏好优化(CPO),旨在通过使用精心挑选的偏好数据,帮助模型避免生成近乎完美但实际上存在缺陷的翻译。
CPO是直接偏好优化(DPO)的“更有效的变体”,将偏好学习融入了训练流程。研究人员认为,引入偏好优化(CPO)可以显著提高中等规模的大语言模型(LLMs)在机器翻译(MT)方面的性能,达到或甚至超过GPT-4的能力水平。
他们解释说,CPO解决了传统监督式微调(SFT)方法的两个主要问题,推动了“通过SFT训练达到性能极限的模型的性能边界。”
首先,SFT致力于让模型输出与参考翻译相匹配,这可能会将模型的性能限定在训练数据的质量范围内,而训练数据可能并不总是完美的。“即使是传统上被认为是高质量的人工撰写数据,也不能幸免于质量问题,”他们说。他们对FLORES-200数据集的分析揭示了人类编写的并行数据的质量甚至不如系统生成的翻译的实例。这一发现导致他们质疑仅仅基于复制参考翻译的训练模型的有效性。
其次,SFT缺乏一种机制来避免模型产生自身的误差。他们解释说,有时,即使翻译看起来不错,也可能包含一些小错误,比如漏词。CPO通过训练模型避免产生近乎完美但根本上存在缺陷的翻译,从而显著提高翻译性能,超越传统SFT方法的能力,从而帮助解决这些问题。
高质量偏好数据集
CPO要求访问带标签的偏好数据,然而在机器翻译领域,这类数据较为稀缺。为了促进CPO的实施,研究人员建立并发布了10种语言对的高质量偏好数据集:英语</>德语、捷克语、冰岛语、汉语和俄语。
该数据集来自FLORES-200数据集,每个源句包括三个翻译:原始目标参考翻译,GPT-4生成的翻译,以及ALMA生成的翻译。评分最高的翻译被标记为偏好,评分最低的翻译被标记为非偏好。他们解释说:“这种使用高质量但不完美的翻译作为非偏好数据的方法有助于训练模型优化细节,并在生成的翻译中实现完美。”
重大进展
研究人员进一步优化了ALMA-13B-LoRa(Advanced Language Model-based Translator),这是2023年推出的大型语言模型(LLM),被认为是是“顶尖中等规模语言模型的翻译系统之一”,其性能甚至超过了如GPT-3.5这样的更大型模型,或NLLB-54B这样的传统模型。
他们将名为ALMA-13B-R的新优化模型与最近推出的其他基于13B LLM的模型以及GPT-4和TowerInstruct等性能顶级的翻译系统进行了比较。
结果表明,ALMA-13B-R匹配甚至优于这些高级翻译模型,表明应用CPO方法微调ALMA-13B-LoRa显著增强了模型的能力,使其性能达到等于甚至超过GPT-4的水平。为了评估,他们使用了wmt23-cometkiwi-da-xxl,XCOMET-XXL,以及wmt22-cometkiwi-da。
最后,研究人员指出,CPO不仅提高了翻译性能,还在记忆效率和处理速度方面带来了优势,并得出结论,这标志着“机器翻译领域的重大进步”。
机器翻译,轻度译后编辑,仅供参考。
编辑:严覃瑶