首先,我对演讲中52次提到的多维质量度量(MQM)感到满意。毕竟,自2012年我参与QTLaunchPad项目以来,我的翻译质量评估研究一直围绕MQM进行。看到Google研究院和Phrase在内的其他关键行业玩家,现在将这一长期、持续的优秀志愿者专家的努力成果认可为无价工具,实在令人高兴。同时,我也很高兴看到我在2020年关于翻译质量评估在AI兴起时会变得更加重要的预见正在成为现实。
但有两点让我感到困扰:一是QPS只是非常间接地建立在MQM的基础上,二是我认识到,这样的语段评估不能做到准确、稳定或可靠。让我们来看看原因。
从演示视频上看,QPS是一个由某些AI模型(基于某些数据训练)基于片段级(segment-level)质量直接评估,并给出从0到100的质量评分。在自然语言处理(NLP)中,这种评分方法被称为直接评估(DA),已经使用了一段时间。在直接评估过程中,人类对机器翻译系统输出的每个语段给出绝对分数或标签。该方法自2016年WMT16挑战赛以来一直在使用。
值得注意的是,最初,WMT挑战DA的人员是通过亚马逊Mechanical Turk的众包环境来找到的。当我得知NLP研究者们基于Mechanical Turk的DA评分来提出“人类等效”声明时,我感到既震惊又好笑。
在任何人类活动中,评价的质量取决于评价者的资格,这是一个微不足道的知识。如果你不是机械工程师,你就无法对另一位机械工程师的工作进行质量评估。如果你不是律师,你就不能评判法律工作。如果你不是医疗专业人士,你就无法评估专业医疗服务或建议的质量。我永远无法理解人们为什么看不到这同样适用于语言和翻译。显然,正确的翻译质量评估的基本前提是评估应由合格的语言学家进行。
但是事情远不止如此。语段的整体DA本身就存在问题。
例如,根据对一部电影的喜欢程度,要求你从0到5分对它进行评分。自然,在这种类型的评估中,你不会按照影评人的影评标准——你只要给出你的整体印象。
这种“整体分析”评估的优势在于它们看起来简单而统一。面对大型复杂的样本时,整体分析方法可能非常强大。但当它被应用于特定语段而非整个样本时,其弱点就凸显了:
因此,它甚至远不如分析性段落级评估精确。但是让我在这里解释一下什么是片段级分析评估。
Google的Marcus Freitag等人发表了一篇题为《专家、错误和上下文:对机器翻译人类评估的大规模研究》的论文[1]。在这篇论文中,他们首创了一种基于MQM的片段级评估,称为SQM。后来,这种方法被用于WMT2020度量任务。
该方法的工作原理如下:注释者浏览片段并使用MQM错误分类法注释错误。然后,按照本文中解释的特定评分公式,形成类似于DA的片段级评分。
这种SQM度量可以被称为“基于MQM的”度量,因为至少错误注释是根据MQM类型完成的。
如果你先对错误进行分析注释,根据基于句子惩罚点的某种评分公式计算段落分数,这可以称为基于MQM的度量,尽管不完全是。
因为MQM是将MQM分数分配给样本,而不是翻译单位!单个片段级分数从原则上讲在统计上意义不大,因为它们的可靠性很低,这是由注释者判断的显著差异引起的[5]。
这有两个非常重要的原因:
但是,如果你不进行分析性错误注释,只是简单地给片段分配一个分数,无论分数来源是人类评估,AI或从另一种类型的语言模型,它就不再是一个基于MQM的度量,不是一个可靠的、准确分数。
Phrase的发言人暗示,这个分数是从某种非GenAI语言模型获得的,该模型是在人类评估的历史数据上预训练的。
首先,如果该数据是“MQM段级分数”,那么由于上述原因,训练数据首先是不可靠的。
其次,与人类评估者不同,AI模型无法捕捉到所有错误。人类看到的错误比任何自动AI度量都多,因此,与人类分段级评估相比,这种度量将不可避免地夸大质量的分数,正如我们在大量工作中明确展示的那样[3]。
第三,这种预测的准确性、可靠性和稳定性原则上很低。也就是说,它可能比来自GenAI的零次直接评估(GEMBA-SQM,在我们的完美主义TQE工具中实现[4])更可靠和准确,但这还有待测量。
最后一点:尽管与AI相关的一切事物通常会成为媒体炒作周期的一部分,它最重要的部分仍然是研究。考虑到与AI有关的任何事物对我们今天的世界可能有多种影响,我们希望那些研究成果是可靠和负责任的,而不是媒体喜爱的缺乏证据的说法。
AI和自然语言处理(NLP)迫切需要适当的基准和可验证的透明度,而不是未经证实的声明和基于不可靠评分的流程决策。
要想发布语言行业的研究和实践,背后要有严格的科学和数学支持,需要发表研究,展示使用的语言模型,让我们可以看到训练数据集和数据样本。这将使我们能够重现结果,测试它们的真实性、准确性和可靠性,并对它们充满信心。
Phrase使用的方法类似于COMET[2],尽管我们知道COMET背后有一个伟大的想法,但需要严格的执行,它才能可信可靠地用于具体的应用程序中,并且它仍然是一个间接的自动度量,不能等同于人类的判断[3]。
总之,如果片段级评估直接用来评估预测,结果将不准确、不可靠或不稳定。
因此,基于Phrase QPS分数来做项目管理决策还为时过早。除了极少数情况,我绝对不建议大范围使用这种方法,目前适用范围还不清楚。无论好坏,采用基于样本的人工评估作为基础分析方法,仍然是评估翻译质量唯一可靠的黄金标准。
(机器翻译,轻度译后编辑,仅供参考) 编辑:王隽雅