理解自定义机器翻译中的BLEU分数(3/3)

分享

其他推荐

提高分数看起来像什么

调整训练集以促进机器翻译需要大量的试验和错误。起初,我们只期待几分的BLEU分数的提高,但令我们印象深刻的是,一个好的训练集可以将测试翻译提高6分,有时甚至10分左右。这实际上是很多。

多少才算多?这些数字可能看起来相当令人印象深刻,但它对翻译本身有什么影响呢?我将展示一些例子来展示翻译是如何表现出巨大的进步的。因为是我的母语,我会用荷兰语举例,但我会解释不同翻译的微妙不同,让非荷兰语读者理解。

其中一项自定义翻译涉及大量医学翻译。我们使用“主动定制翻译”( “Active Custom Translation”)来培训Amazon Translate,这允许使用双语语料库即时调整翻译。训练语料库中的一些主要问题涉及:

  • 如何以及何时给药;

  • 药物治疗的预期效果和副作用;

  • 为医学研究建立实验;

  • 报道生命科学报告。

我们使用了2000个片段的测试集。在用我们的训练集定制翻译后,BLEU总分上升了7分,从44.3分上升到51.3分。有825个片段有某种变化,其中600个在翻译后有更高的BLEU分数。BLEU不增反降的源段平均来说不如BLEU评分提高的源段前后变化大。

翻译上的变化以各种不同的形式出现。但是某些类型的修正会比其他更频繁地出现。训练激发了更正式的语言。

源句子:‘Thank you!We will contact you as soon as possible.’

原翻译:Dank je wel!We nemen zo snel mogelijk contact met je op.

修正后的翻译:Bedankt!We nemen zo spoedig mogelijk contact met u op.

参考翻译是:Bedankt, we nemen zo spoedig mogelijk contact met u op.

请注意,“u”和“je”都是“you”的翻译,但“je”更为非正式,不会用于在医疗环境中称呼人。 ‘As soon as possible’ 从“zo snel mogelijk”改为“zo spoedig mogelijk”。两者都是正确的,但“spoedig”又有了一个更正式的语气,使它更像医疗环境下的用语。除了使用更正式的语言,定制的翻译听起来也更专业。

例如:[Product] is given according to official recommendations.

参考翻译是:[Product]wordt toegediend in overeenstemming met official e aanbevelingen。

定制翻译与参考翻译完全相同。“Toegediend”是“administrated”的翻译,优于未定制的:

[Product] wordt gegeven volgens officiële aanbevelingen.它使用更口语化的“gegeven”来表示“given”。‘in overeenstemming met’ 和 ‘volgens’在语气上的差异也是如此。

其他的变化包括定制翻译使得翻译不那么模糊。例如:

[Substance] was studied in 14 main studies involving over 10,000 patients with essential hypertension.

未经定制,翻译为:[Substance] werd bestudeerd in 14 hoofdonderzoeken waarbij meer dan 10.000 patiënten met essentiële hypertensie betrokken waren.

定制后,它的措辞与参考翻译完全相同:[Substance] werd onderzocht in veertien belangrijke studies waaraan meer dan 10 000 patiënten met essentiële hypertensie deelnamen.

请注意,原句使用了“studied”,意思是进行实证研究。荷兰语的“bestudeerd”也可以用于此,但更常指从文学中学习,而“onderzocht”的科学研究的含义更明晰。另一个歧义消除的例子是“involving”翻译为“betrokken”:这是一个很好的翻译,实际上也是最口语化的。然而,“deelnamen”(“participating”)更好,因为它意味着更积极地参与研究。最后,“hoofdonderzoeken”有点奇怪,因为它暗示了研究中的一种等级制度,而“belangrijke研究”在这种情况下是完全自然的。

Hallucinations are known as a side-effect of treatment with dopamine agonists and levodopa.

在不进行自定义的情况下翻译为Hallucinaties staan bekend als een neveneffect van behandeling met dopamineagonisten en levodopa.

定制后,它变为:Hallucinaties zijn bekend als bijwerking van de behandeling met dopamine-agonisten en levodopa.

在这里,定制版本显得更为专业。对于“staan bekend als”,非定制翻译暗示“幻觉是已知的副作用”,暗示大多数人可能只知道幻觉,因为它们是这些特定治疗的副作用,而“Hallucinaties zijn bekend als”只是说已知幻觉可能作为副作用发生。这可能很微妙,但这些微妙之处将决定哪些是一个听起来不错的陈述,哪些会是因为错误的原因让读者感到惊讶的陈述。

最后一个例子是,定制能够以非常简洁的方式纠正难以理解的翻译。原文读起来很不通顺:[Product name] also induced an advance of the time of sleep onset and of minimum heart rate.

未定制的翻译是:[Product name] veroorzaakte ook een voorschot van het begin van de slaap en de minimale hartslag.

它假定了某种“deposit” (“voorschot”)定制的翻译去掉了这一内涵,并正确地指出该产品导致了更早的睡眠和最小的心率:

[Product name] vervroegt ook de tijd van inslapen en van minimale hartfrequentie.

这些例子显示了不同领域在多大程度上限定了人们对要使用的语言的期望。使用更通用的翻译模型时,这种期望被打破了,这使得阅读和理解文本变得更加困难。

翻译的BLEU分数不是那种让人立即感到熟悉的指标。它的最高值为100%,最低值为0%,但除此之外,很难决定质量好坏的硬性限制。不建议跨领域和语言比较值,但只要测试翻译足够大,并且参考翻译可靠,当应用于相同的测试翻译时,都将意味着分数的提高。

什么时候改进会变得明显?这是一个敏感性问题,但超过5个百分点的改进会产生更好的翻译。不是每个句子都更好,但总的来说,这种进步是真实的,总体来说会让阅读变得更好。

(机器翻译,轻度译后编辑,仅供参考)

编辑:胡跃

原文链接

Was it helpful ?