在2024年6月18日发表的一篇论文中,来自苏黎世联邦理工学院的Vilém Zouhar和Mrinmaya Sachan以及来自微软的Tom Kocmi提出了一种新的机器翻译(MT)系统的人工评估方法,该方法集成了人工智能辅助,以提高评估过程的效率和一致性。
评估机器翻译系统的性能是一项重要但具有挑战性的任务。传统的人工评估方法成本高、耗时长、主观,而且评估人员之间缺乏一致性。
研究人员强调,现有的自动评估指标“仍然与文本质量的理想衡量标准不一致,人类评估仍然是最准确、最可靠的标准。”
人工评估包括使用MQM等框架对不同的机器翻译输出进行排序、直接评估或识别错误范围、类型及其严重程度。Komci, Zouhar等人在2024年6月17日发表了另一篇论文,并将这一过程简化为错误跨度标注(ESA),这是一种人类评估协议,仅关注高级错误严重程度,实现“大规模经济评估”。
使用ESA,注释者首先将错误标记为轻微和严重程度,然后分配最终分数,而不需要对错误进行分类。研究人员发现,ESA“比MQM更快、更便宜,同时在对机器翻译系统进行排名方面也同样有用”。
加快速度
现在,他们的目标是在人工智能的帮助下“降低ESA的MT评估过程的成本”。他们指出,“人工智能辅助设置的动机之一是加快注释速度并降低成本。”此外,他们认为,人类与人工智能的合作不仅可以更快,而且“比单独的人类或人工智能更准确”。
这个名为ESAAI的工具使用人工智能系统预先填充MT输出的错误注释,然后人类评估人员可以审查、修改或拒绝这些注释,并将其作为最终评估提交。他们解释说,这种设置是由质量评估(QE)系统的进步实现的。具体来说,他们使用了GEMBA,一种基于gpt的质量评估系统。
他们说:“我们通过自动质量评估预先填充跨度注释来帮助注释者。”
最初的错误标记由人工智能完成,然后由注释器进行改进。随后,注释者手动在0到100%的范围内分配最终分数(没有人工智能)。他们解释说:“因此,错误注释部分可以作为注释者给出更准确分数的启动。”
研究人员将他们的人工智能辅助方法与其他人类评估方法进行了比较,以评估其性能。他们发现,ESAAI可以达到类似的准确性水平,同时显著减少注释者标记错误所需的时间和精力。这可能会将注释预算减少24%。
他们的结论是,“将人工智能纳入评估也为进一步的评估经济开辟了许多选择。”
机器翻译,轻度译后编辑,仅供参考。
编辑:陈驭格