在2024年2月的一篇论文中,约翰斯·霍普金斯大学和微软的机器翻译研究人员强调了这一观点。
他们引入了一种名为对比偏好优化(CPO)的新的微调方法,旨在通过使用精心策划的偏好数据,帮助模型避免生成几乎完美但存在缺陷的翻译。
CPO是直接偏好优化(DPO)的“更高效的变体”,它将偏好学习整合到训练过程中。研究人员建议实施CPO可以显著提升中等规模的大型语言模型(LLMs)在机器翻译(MT)中的性能,甚至能够匹配或超越GPT-4的能力。
他们解释了CPO解决传统监督微调(SFT)方法的两个主要问题,推动“通过SFT训练达到饱和的模型性能边界”。
首先,SFT侧重于使模型输出与参考翻译匹配,因此潜在地将模型的性能限制在训练数据的质量上,而这并不总是完美的。“即使是人工编写的数据,传统上被认为是高质量的,也不免存在质量问题,”他们说。他们对FLORES-200数据集的分析显示,人工编写的平行数据的质量甚至不如系统生成的翻译。这一发现使他们对仅基于复制参考翻译进行模型训练的有效性提出了质疑。
其次,SFT缺乏防止模型犯错的机制。他们解释说,有时即使翻译看起来不错,也可能包含小错误,比如缺少单词。CPO通过训练模型避免生成几乎完美但最终有缺陷的翻译,从而显著增强翻译性能,超越传统SFT方法的能力。
高质量的偏好数据集
CPO需要访问标记的偏好数据,但在机器翻译中这样的数据很少见。为了促进CPO的实施,研究人员构建并发布了一个包含十种语言对的高质量偏好数据集:英语</>德语、捷克语、冰岛语、中文和俄语。
这个数据集从FLORES-200数据集中得出,每个源语句有三个翻译:原始目标参考、GPT-4的翻译和ALMA的翻译。分数最高的翻译被标记为首选,而分数最低的翻译被标记为不首选。“使用高质量但不完美的翻译作为不首选数据的这种方法有助于训练模型细化细节,实现生成翻译的完美,”他们解释道。
研究人员进一步对2023年发布的ALMA-13B-LoRa(基于先进语言模型的翻译器)进行了微调,这是“顶级中等规模语言模型翻译系统”之一,甚至超过了GPT-3.5等更大的模型或传统模型如NLLB-54B。
他们将新微调的模型(命名为ALMA-13B-R)与其他最近发布的13B LLM模型以及GPT-4和TowerInstruct等性能卓越的翻译系统进行了比较。
结果表明,ALMA-13B-R要么匹配,要么甚至优于这些先进的翻译模型,显示将CPO方法应用于微调ALMA-13B-LoRA显著增强了模型的能力,使其性能达到或甚至超过了GPT-4的水平。评估中使用了wmt23-cometkiwi-da-xxl、XCOMET-XXL和wmt22-cometkiwi-da。
最后,研究人员指出,CPO不仅提高了翻译能力,还在内存效率和速度方面提供了优势,总结认为这标志着“机器翻译领域的一项重大进展”。
作者:徐浩然、Amr Sharaf、陈云默、谭维婷、沈凌峰、Benjamin Van Durme、肯顿·默里、金永镇
(机器翻译,轻度译后编辑,仅供参考。)
编辑:刘煜珍