机器翻译(MT)的自动评估对于以较低主观性测量MT系统进展至关重要,相较于人工评估,具有更少主观性(关于MT质量评估与估计差异的更多信息在此)。
然而,传统方法将MT评估视为回归问题以生成绝对的翻译质量分数,在解释性、与人工注释者评分的一致性以及在基于参考的评估中对参考对的依赖方面都存在限制。
为了解决这些挑战,来自宾夕法尼亚州立大学的Ibraheem Muhammad Moosa、Rui Zhang和Wenpeng Yin在2024年1月30日的一篇论文中介绍了MT-Ranker。MT-Ranker是一个系统,旨在直接预测在给定的一对翻译中哪个更好,而不是提供绝对的质量分数。
正如作者所解释的,所提出的方法将无参考机器翻译评估表述为一种成对排名问题。这种成对排名方法在先前的应用中很大程度上未被充分探索,以前的应用主要局限在基于参考的评估场景中。
“我们是第一个将无参考机器翻译评估建模为成对排名问题的人,”他们说道。
实际应用价值
作者强调,成对排名方法足以满足自动评估指标的最重要用例:比较机器翻译系统。它的优点多方面:
- 简单性,因为与基于回归的评估相比,成对排名被认为更为直观。
- 在没有参考的情况下也适用。
- 减少对高质量手动注释的依赖。
“通过消除对人工提供的参考翻译和比较数据的依赖,我们的系统展现出增强的实际应用价值,”他们指出。
通过利用多语言T5的编码器作为其模型的骨干,作者探索了三个参数数量逐渐增加的模型变体:Base(290M)、Large(600M)和XXL(5.5B)。MT-Ranker是通过三阶段的训练过程使用多语言自然语言推理和合成数据(即,通过合成生成的翻译对,其中一个翻译可以被认为比另一个更好)进行训练的,而没有任何人工注释:
- 预训练阶段使用间接监督:该阶段作为模型的间接监督,使其更偏向不与源语句矛盾的翻译。
- 微调以区分人工翻译和机器翻译:在此阶段,基于一个假设构建了训练对,即人工编写的参考翻译通常比机器翻译更好。
- 在弱监督的合成数据上进行进一步微调以解决基于参考的方法的局限性:为了解决前一阶段依赖参考翻译可能引发的局限性,作者在弱监督的合成数据上进行了进一步微调。这一步旨在减轻基于参考的方法引入的偏见,并提供对翻译质量范围的更全面覆盖。
与人类判断的最新相关性(SOTA)
在评估中,作者专注于七个X到英语和英语到X的语言对:捷克语/英语,德语/英语,日语/英语,波兰语/英语,俄语/英语,泰米尔语/英语,和中文到英语。
该系统在基准数据集上进行评估,包括WMT20 Shared Metrics Task、MQM20、MQM21、MQM22和ACES。使用Kendall样式的Tau相关性来衡量MT-Ranker系统产生的排名与人工判断之间的相关性。
与包括COMET-QE、OPENKIWI和T5-SCORE在内的表现最佳的MT评估指标进行的比较分析展示了MT-Ranker在所有基准数据集和语言对上的“与人工判断的最新相关性”。
在GitHub上提供代码进一步促进了MT社区内研究和开发工作的透明性和可重复性。
(机器翻译,轻度译后编辑,仅供参考。)
编辑:刘煜珍