理解定制机器翻译中的BLEU分数(2/3)

分享

其他推荐

理解定制机器翻译中的BLEU分数(2/3)

质量评估

测试机器翻译的想法很简单:你用源句子及其翻译创建一个训练集,但你保留一小部分非常可靠的参考翻译。永远不要用这个测试集训练,因为那会泄露测试的正确答案。您只需在定制之前和之后使用它来试用翻译引擎,然后将生成的翻译与给定的参考翻译进行比较。

对于翻译质量的评估,有相当多的不同方法和指标可用。最好的方式是古老的人工审校。我们应该了解,因为我们已经在DQF(动态质量评估框架)之下努力建立了一个动态的方法来评估质量。对于我们最初的估计,我们使用了参考翻译和生成翻译的小规模人工审校。我们首先想知道我们的参考翻译是否够好(是的,它们都很好,而且几乎总是比生成的翻译好),以及经过定制的翻译是否表现优于未经定制的引擎输出的翻译。

除了最初的探索,对于最后的估计,人工评估有其局限性。很快,人工审校的工作量就变得太大,无法大规模实施。这时就需要自动评估了。

如果您熟悉自然语言处理(NLP)中的争论你可能知道,人们花了相当多的精力来评估自动评估翻译质量是否与人类对好翻译的评估一致。假设是有一个对好翻译的人类共识。因此,一个好的衡量标准应该反映人类的判断,给好的翻译打高分。这些类型的指标的问题通常是,它们可能并不总是立即明显或直观的。指标的逻辑似乎不符合其目的。这种情况也出现在机器翻译最常用的指标,BLEU分数中。

计算BLEU分数

下面先简要介绍一下如何计算BLEU分数。简而言之,BLEU 分数将现有的完美翻译作为参考翻译,并将机器翻译的输出,候选译文(candidate translation),与此参考翻译作比较。最终,这种比较用0到1之间的数字来表示,数字越大表示分数越高。

像这样的方法必须以某种方式弥补这样一个事实,即每个源段可以对应多个完美的翻译。BLEU 分数实际上认可这一点,并允许多种参考翻译存在,每一种都被认为是同等好的。但是任何偏离参考翻译的情况都会得到较低的分数。这就是BLEU分数变得复杂的地方。BLEU 分数检查候选翻译中的单词,对其进行计数,每当候选翻译中有参考翻译中没有的单词时,分数就会受到影响。这是一种计算翻译精确度的方法:太多不好。

由此,你可能会认为当一系列随机顺序的单词碰巧出现在参考翻译中时,也会得到高分,但事实并非如此。计算中不仅包括单个单词,还包括连续单词组。该算法预留了一些变化余地,但通常候选翻译中所有的两个、三个和四个连续单词组都会被计数,并与参考翻译中相同单词数量的连续单词组进行比较。这些连续的单词组通常被称为n-grams,它们确保单词正确但排序不正确时同样不会得到奖励,因为它们只在单词处于相同的连续顺序时才匹配引用。

此外,过短惩罚也被考虑进了BLEU分数。我们已经看到,候选句子中没有出现在参考句子中的单词会降低分数。另一方面,单词数比参考翻译少的候选翻译会因为过短惩罚而被降低最高可能分数。作为完整计算过程的一个很好的解释,您可以查看本页

BLEU分数:超过其各部分的总和

BLEU分数是应用于大量数据时效果最佳的指标类型。首先,如果一个完整的测试翻译的BLEU分数高于另一个测试翻译,不要期望每个片段都会更好。毕竟,BLEU分数是一个平均值,这意味着每个独立源段将有不同的分数,可能比真实情况分数高也可能比真实情况得分低。此外,在同一源段有两个不同候选翻译的情况下,具有较高BLEU分数的翻译也不一定总是更好的翻译。最后,如果源文本完全不同,不建议根据BLEU分数比较较大的翻译文本。

但总的来说,当比较同一来源的两个较大的候选译文时,得分较高的候选译文通常被认为是较好的译文。

 (机器翻译,轻度译后编辑,仅供参考)

 编辑:胡跃

原文链接

Was it helpful ?