Some Translation Studies informed suggestions for further balancing methodologies for machine translation quality evaluation
文献题目
|
Some Translation Studies informed suggestions for further balancing methodologies for machine translation quality evaluation |
文献作者
|
Ralph Krüger |
文献期刊
|
Translation Spaces |
关键词
|
machine translation quality evaluation; professional human translation; (super)human MT performance; MT bias; translation studies |
摘要
|
This article intends to contribute to the current debate on the quality of neural machine translation (NMT) vs. (professional) human translation quality, where recently claims concerning (super)human performance of NMT systems have emerged. The article will critically analyse some current methodologies employed in machine translation (MT) quality evaluation employed in studies claiming such performance of their MT systems. This analysis aims to identify areas where these methodologies are potentially biased in favour of MT and hence may overvalue MT performance while undervaluing human translation performance. Then, the article provides some Translation Studies informed suggestions for improving or debiasing these methodologies in order to arrive at a more balanced picture of MT vs. (professional) human translation quality. |
文章大纲
|
|
研究背景
|
随着2010年中期神经机器翻译(NMT)的出现,机器翻译(MT)的质量有了显著的飞跃,这使得一些系统开发人员认为机器翻译质量已经等同于人工翻译。互联网巨头公司谷歌,微软,以及CUBBIT也相继发布了测评报告以证实其观点,但是这些评估所使用的方法存在问题,机翻译文能否等同甚至超过人工翻译仍有待考量。 |
研究目的
|
1. 文章试图分析在机翻译文质量评估过程中,导致评估结果偏向于机器翻译而不利于人工翻译的因素;
2. 文章提供了一些建议以改进评估方法,以便于更公平地评估机翻与人翻的译文质量。
“The present article intends to contribute to this debate by attempting to identify further aspects of current MT quality evaluation methodologies which may lead to overvaluing MT performance while undervaluing (professional) human translation performance (this phenomenon will be called ‘MT bias’ in the remainder of this article). Also, it will offer some Translation Studies informed suggestions on how these methodologies could be further improved or debiased in order to arrive at a more balanced picture of MT vs. human translation quality.”
|
研究重要性
|
本文认为,无论是从专业翻译还是从翻译学的角度来看,适当且公平的机器翻译质量评估方法都是至关重要的。这个问题不仅仅有关学术,同时有着现实影响:第一,影响学生选择翻译这一学科,可能导致学者或专业人士离开翻译领域;第二,可能导致对翻译学术资助以及专业翻译率下降。 |
谷歌
|
【Google: Bridging the gap between human and machine translation】
1. 标准:0分最低6分最高(译文的意义与原文完全一致,语法正确)
2. 文本来源:维基百科和新闻类文章中选取相对简单化和孤立的句子
3. 评委:可以流利运用ST和TT(human raters who are fluent in both languages)
4. 谷歌实验的缺陷:
①源文本都取自一个领域,较为单一,而且该领域并非专业译员日常翻译的领域:“the texts used to measure MT performance were drawn from a domain which is not representative of the domains that professional human translators usually translate on a daily basis”;
②呈现给评委的是单独的句子,没有提供上下文语境:“raters were presented with isolated sentences which they had to judge without taking the wider document context into account”;
③大部分评委不是专业译者:“raters who were most likely not professional translators”。 |
微软
|
【Microsoft: Parity between professional human and machine translation】
1. 标准:0分最低100分最高(译文是否准确传达了原文的语义含义);
2. 参考译文来源:①微软3个NMT系统;②3个参考系统;③Reference-HT:④Reference-PE;⑤HT from translators for the WMT17;
3. 与谷歌NMT的区别:Google的系统基于RNN架构,而微软论文中报道的系统基于Transformer架构;
4. 微软实验的缺陷——标准不合适:
微软认为,是否达到human parity就是评估机翻和人翻译文的质量在统计学上是否存在大的差异;这一标准中参考译文的质量很关键,因为它将作为专业译者能力代表以及机翻译文的比较标准。
“The decisive factors here are the quality of the reference translations, which are intended to be representative of professional human translation and which are to serve as a standard of comparison for MT quality, as well as the question of how the scores for human and machine translations were obtained.” |
对微软实验方法的批判
|
1. Toral等人强调了微软评测活动中使用的源文本(取自于WMT 2017)是有问题的“It turned out that half of the sentence pairs were originally written in English, then human-translated into Chinese and finally machine-translated back into English by Microsoft.”
2. Toral等人也对微软找来的双语评委不满 (这一批评对于上文讨论的谷歌MT评估活动同样成立);这些评委评分者之间的一致性较高(即其质量判断的变异性较小) ;
3. 以微软公司的人工译文作为NMT系统的比较标准,发现中英文人工译文均存在大量语法错误和误译,这导致Toral怀疑这些人工参考翻译可能是由非专家专业译者制作的;
4. Toral等人批评微软公司的评估活动仅提供单独句子,缺乏上下文语境。
注:补充文献 A Set of Recommendations for Assessing Human-Machine Parity in Language Translation” (Läubli et al. 2020)在上述文献中,Läubli提出以下建议:( R1 )应选择职业译者作为评分者;( R2 )评价活动应该评价完整的文档而不是单独的句子;( R3 )除了充分性外,还应该评估流利度;( R4)参考译文不应因流畅性,而被大量编辑;( R5 )在评估活动中应使用原始ST。 |
CUBBIT
|
【CUBBIT: Human translation is not the upper bound of translation quality】
1. 标准:document level;
2. 评委:native speaker=professional translators;
3. 流程:译文评估–错误分析–翻译图灵测试;
4. 主张:人工翻译不一定是翻译质量的上界“human translation is not necessarily an upper bound of translation quality”;
5. 最难批判的原因:包含了Läubli提到的评估建议 “It is also the hardest paper to criticise for its methodology because it incorporates several of the recommendations by Läubli et al. (2020)”
6. 研究结果:
CUBBIT在充分性方面显著优于人工参考译文,而在流畅性和整体质量方面显著低于人工参考译文。
研究结果表明,CUBBIT在充分性方面错误较少(添加、省略、词义转换、语法和拼写方面的错误显著较少),而人工参考译文在流利性方面以及歧义词误译方面的错误较少。
7. 缺陷:在翻译图灵测试,作者使用独立的句子评估,而非在评估中使用的文档。 |
机器翻译评估的重点
|
翻译评估方法应当使用有语境的文档,符合专业人工翻译,且不偏向于机器翻译;此外,这一评估过程应当由专业译者来完成。 |
MT现阶段问题
|
1. 机翻无法意识到源文本中的错误以及源文本的意义和含义;
2. 机翻考虑上下文意义的程度上是有限的。
|
作者的建议
|
1. 作为参考范文的人工翻译文本的质量需要有保证:
让一个或多个有能力的审查员(例如大学层次的专业翻译或翻译讲师)对MT质量评估活动中使用的人工参考译文进行审查。(审查员有各自擅长的翻译领域且熟悉各种质量级别的译文);
2. 在评估译文质量时应该考虑语境:
翻译评估必须满足特定的目标文化目的。在随后的错误分析中,评委应该考虑到因为译文充分性而进行的转换,如添加和省略;如果目标语及其文化需要相应的转换,则机翻中不添加、不省略等情况需要计入错误之中;
3. 对译文错误进行风险分级:
专业译者通常对风险十分敏感,他们会尽力确保他们的翻译不包含任何灾难性的错误。由于机器翻译系统没有这种风险意识,在机器翻译质量评估中可能会对机器翻译产生不利影响;
4. 将机器翻译与高质量翻译环境融合,以促进步:
机器翻译的快速发展给人工翻译领域带来了压力,因此我们也要强调人工翻译的重要性。同时,机器翻译也可从中获益,在需要顶级专业翻译质量时,可以看到机翻系统在哪些方面仍有不足。这一建议旨在通过让高质量人工翻译与高性能的机翻系统协同工作,实现高质量、高效率的翻译。 |
研究结论
|
根据本文中讨论的各种机器翻译的偏差,关于(超)人类MT性能的说法并不真实,机器翻译开发人员应当寻找其他方法来展示他们的MT系统的性能。文章有助于机器翻译与人工翻译质量评估方法更加合适且公平,强调专业译员仍然不可替代,并指出了当前MT系统可以进一步改进的领域。 |
一、 研究方法:
CUBBIT的研究中,在译文评估后进行了译文错误分析,这一步骤使机翻和人翻各自的优势和不足具象化,但是它没有对错误进行分类。因此在机器翻译评估后,错误分析应该对错误的严重程度进行分级,还要考虑一些增译省略等是否是考虑到语境而出现的,这样才能充分评估译文质量。
二、 研究发展:
作者在文章中提出了四条建议来改善机翻质量评估方法, 通过作者的分析可以得知,机器翻译和人工翻译两者各有利弊。
第一条是保证人工参考译文的质量。其中讲到无法保证人类译者给出的参考译文是在其理想状态下完成的最好成果,因为人工翻译的质量会受到外界因素影响,因此人工翻译难以保证效率;而机器翻译没有这类烦恼,系统可以不受外界干扰稳定输出。
第二条建议中提到了语境对于翻译质量的影响。即使是神经机器翻译也很难去根据上下文语境来分析源文本的隐含意义,更别说以此对源文本进行增译或省略等操作;而人类译者能够根据源文本的文化要求进行相应转换。
第三条建议中介绍了专业人类译者对风险敏感,会尽力在译文中避免严重问题;而机器翻译却不拥有这类能力。
第四条建议中,作者认为应该将两者融合。一方面强调译者的重要性,另一方面机翻系统开发人员可以发现机翻的不足,以便于提升改进。
综上所述,机器翻译能够保证翻译的效率,而人工翻译可以理解显化源文本的含义、文化内涵等内在因素。因此我认为,对于机器翻译来说,应该注重发展其对上下文语境的理解能力,促进机器翻译在语用及语义学方面的发展;而对于译者来说,外在因素的干扰不可避免,应当探究如何高效利用机器翻译系统,从而提高翻译效率,发展人机协同翻译的模式。
特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。
– END –
语言服务资源网旨在为读者提供名师和专家对口笔译的真知灼见,CATTI考试和MTI入学考试信息,翻译等语言服务就业资讯,以及口笔译学习资源和知识,希望在翻译之路上,为大家助上一臂之力。欢迎大家积极留言,为我们提供建设性意见,我们共同进步!
原文作者:张一孟
推文编辑:刘柏君