这篇来自约翰霍普金斯大学和微软的人工智能论文用ALMA-R革新了机器翻译:一个比GPT-4更小更强大的LLM模型

机器翻译,作为自然语言处理的一个重要方面,受众已经显著增加。然而,一个主要的挑战仍然存在:制作超越仅仅是充分的翻译,以达到近乎完美。传统方法虽然有效,但往往需要改进,因为它们依赖于大型数据集和监督微调(SFT),导致输出质量受到限制。

该领域的最新发展引起了人们对中等规模的大语言模型(LLMs)的关注,如ALMA模型,它在机器翻译中展示出了前景。然而,这些模型的功效通常受到训练中使用的参考数据质量的限制。研究人员已经认识到这个问题,并探索新的培训方法来提高翻译绩效。引入对比偏好优化(CPO),一种改进改变行业规则训练的机器翻译方法。利用这一突破性的技术实现无与伦比的翻译准确性。这种方法不同于传统的监督微调,因为它不仅仅关注于将模型输出与黄金标准参考对齐。相反,CPO训练模型来区分“适当”和“接近完美”的翻译,划定翻译质量的界限。

CPO的机制很有趣。它采用了一种对比学习策略,利用强反面例子,这是对最小化交叉熵损失的通常做法的重大转变。这种方法允许模型在学习拒绝高质量但不完美的翻译的同时,发展对生成高级翻译的偏好。

实施CPO的结果非常显著。当应用于ALMA模型时,该方法证明了翻译质量的实质性飞跃。被称为ALMA-R的增强型车型展示了与该领域领先模型(如GPT-4)相当或超过的性能。这种改进是用最少的资源投入实现的——这在机器翻译领域是一个显著的成就。对ALMA-R模型性能的详细检查揭示了它优于现有方法。它在各种测试数据集方面表现出色,包括来自WMT竞赛的数据集,设定了新的翻译准确性和质量标准。这些结果突出了CPO作为机器翻译变革工具的潜力,提供了一个远离严重依赖大量数据集的传统训练方法的新方向。总之,对比偏好优化的引入标志着神经机器翻译领域的重大进步。通过关注翻译的质量而不是训练数据的数量,这种新的方法为更有效和准确的语言模型铺平了道路。它挑战了关于机器翻译的现有假设,在该领域树立了新的基准,并为未来的研究和发展开辟了可能性。

机器翻译,轻度译后编辑,仅供参考。
编辑:张梓琦

原文链接