自动化MT评估指标

分享

其他推荐

自动化MT评估指标

机器翻译(MT)输出的自动评估是指使用自动指标(如BLEU、NIST、METEOR、TER和CharacTER)对翻译内容进行评估。

机器翻译(MT)输出的自动评估是指使用自动指标(如BLEU、NIST、METEOR、TER、CharacTER等)对翻译内容进行评估。自动化指标的出现满足了对机器翻译输出进行客观、一致、快速和经济评估的需求,而不是要求翻译或语言学家对句段进行人工评估。

自动化指标是如何工作的?

大多数自动化度量使用基于段级相似性的方法(segment-level similarity-based method)——它们将机器翻译系统的输出与人工生成的“参考”翻译进行比较,并计算机器翻译的句子与该参考翻译的接近程度。假设差异越小,质量越好。比较单位可以是一个单词,但度量也使用n-grams来计算精确度分数。N-gram是给定文本或语音样本的n个项目的连续序列。这些项目可以是音素、音节、字母、单词等。

自动化-机器翻译-评估——指标

最常见的自动化评估指标

BLEU

BLEU(Bi-Lingual Evaluation Understudy)评分最早是在2002年的一篇论文中提出的。BLEU:一种自动评价机器翻译的方法“(Kishore Papineni等人)它仍然是MT评估中最广泛使用的指标,因为它被认为与人类MT输出排名高度相关,尽管这一点经常受到质疑。这是一种段级算法,基于每个单词来判断翻译。

因为它着眼于为测试选择的一组特定的源句子和对应的翻译,所以它不应该被认为是对整体翻译质量的衡量。BLEU通过计算n-gram精确度来查看单词精确度和翻译流畅性,并返回0-1(替代:0-100)范围内的翻译分数,从而衡量MT的充分性。BLEU的n-gram匹配需要精确的单词匹配,这意味着如果机器翻译使用的是参考翻译的近义词汇或短语,而不是相同的词汇或短语,分数也会变低。

NIST

NIST得名于美国国家标准与技术研究所,它是一个基于BLEU并添加了一些附加内容的指标。其中一个区别在于n-gram精度计算。虽然BLEU通过给每个n-gram添加相等的权重来计算n-gram的精确度,但NIST也计算特定n-gram的相关程度。被认为不太可能出现(更罕见)的n-gram被赋予更多权重。

METEOR

METEOR,一种改进的与人工判断相关的机器翻译自动评价方法(S.Banerjee,A.Lavie),最初于2004年发表。与仅使用基于精确度的特征的BLEU相比,METEOR除了精确度之外,还专注于一种称为召回(recall)的属性,因为它已被几项指标证实为与人类判断高度相关的关键。METEOR还允许多个参考翻译,并解决了单词匹配中灵活性和可变性问题——允许形态变体和同义词被视为合法匹配。此外,METEOR可以针对不同的语言单独调整,以优化与人工判断的相关性。

TER

翻译错误率(TER)是一种基于字符的自动指标,用于测量将机器翻译的输出转换为人工的翻译参考所需的编辑操作数量。它被提议作为BLEU评分的替代方法来评估MT的质量,但它更常被用作计算编辑距离的方法,用于评估译后编辑的工作量。

主要优势

自动化MT质量指标对于MT技术的开发人员和研究人员非常有用,因为MT系统开发需要频繁的系统评估。它们运行速度快且容易,需要最少的人力,不需要双语者,并且可以在系统开发过程中重复使用。

缺点

MT 质量指标的主要目的是评估MT模型的质量,而不是翻译本身。因此,尽管它们在机器翻译系统开发和比较中很有用,但它们并不适合翻译生成场景。以下是一些明显的限制:

  • 评估需要源段的参考翻译(理想情况是多个参考翻译)。这在现场翻译生成场景中是不实际的。
  • 给定的参考翻译被假定为黄金标准,但这很难验证。大多数源句子都有多个翻译,且都可以被看成是黄金标准
  • 自动生成的质量分数可以给开发人员增加一定程度的信心,但仅仅是就机器翻译系统的质量来说,这对于基于生产的翻译活动来说,并不意味着什么。38分可能意味着一个句子翻译得好,另一个句子翻译得差。此外,它没有告诉翻译人员他们需要多少时间来译后编辑,或者他们应该为此获得多少报酬。ed 59f 247-2675-4d 66-a 8 b 7-dc 8689 a 7 b 942’,’justify center’)}}您是否应该在MT程序中使用自动化指标取决于您的用例。如果你打算这样做,你将需要在相似的数据上训练指标,并为你想要评分的每个句子准备参考翻译。发现可用于MT训练的并行语言数据或者探索TAUS数据库,其中包含特定领域的高质量数据集。

(机器翻译,轻度译后编辑,仅供参考)

编辑:胡跃

原文链接

Was it helpful ?