A short guide to post-editing
中文译名:译后编辑指南
作者:Jean Nitzke, Silvia Hansen-Schirra
ISBN:978-3-96110-333-1
DOI:10.5281/zenodo.564689
出版社:Language Science Press
网址:https://langsci-press.org/catalog/book/319
译后编辑(Post-editing)已经成为专业译者的既定任务。原始的机器翻译结果可以帮助译后编辑者加快翻译过程,让客户享有更多利润和较低成本。然而,专业的译后编辑者需要掌握机器翻译和译后编辑的基本知识,来评估译后编辑任务并作出正确的决策。
本书是了解并学习译后编辑的入门指南,总共分为十章,我们将带着读者从零开始,一步步学习译后编辑,同时也将译后编辑
相关的话题同步介绍给大家。
本系列推文将按本书的章节顺序,基于中文译本(由武汉科技大学2020级MTI研究生陈美欣同学翻译),对“译后编辑”进行较为完整的介绍:从译后编辑的定义、指南等基础知识出发,分别从基本工具、风险、流程及能力等方面进行全方位分析,从而带领各位读者由浅入深,学习并掌握译后编辑,助力翻译实践。
本篇推文将简要介绍本书第一至三章的重点内容,包括译后编辑的定义、译后编辑在翻译研究中的新视角、机器翻译的基本方法,为后续推文做铺垫。
译后编辑(PE)“是由人工译者根据特定的指导方针和质量标准对原始的机器翻译结果进行校正”(奥布莱恩, 2011: 197-198)。
译后编辑应当由人工译者完成,而不能由掌握源语和目的语,甚至只掌握目的语的外行来完成。因此,我们可以假设译后编辑与翻译有共同的特点。
与人工翻译工作的翻译纲要一样,译后编辑的具体指南和质量标准也很重要。它们决定各项译后编辑工作需要多大工作量。
在后续推文中,我们将讨论译后编辑的不同方法,这些基本要点按二分法包括如下分类:
自20世纪90年代起,专业译者就开始使用计算机辅助翻译工具(CAT tools),该术语通常指翻译记忆系统、术语管理系统以及项目管理系统。然而,文字处理程序或电子/在线词典的使用也都被认为是迈向自动化的一步。当使用这些工具时,我们会谈到机器辅助人工翻译(MAHT)。人类仍然处于翻译流程的中心,但由机器辅助。
离自动化更进一步的是人工辅助机器翻译(HAMT)。这里涉及到机器翻译系统,人类必须“单独”为机器准备源文本(译前编辑)和/或优化机器翻译输出(译后编辑)。后者是本书的重点内容(在上图中用虚线标出)。
请谨记,机器翻译结果仍然只是专业译者的工具(如果你现在不赞同,读完本书之后也许会赞同)。译前编辑和译后编辑更加关注机器以及由机器完成的一定量的工作。但是,专业译者仍要负责将机器翻译结果变成符合目标文本质量标准的译文。
正如艾伦(2003)所指出的,译后编辑给翻译研究引入了一个新视角,因为译者以前从不需要处理“半成品”文本。在译后编辑中,目标文本不需要从零生成。译者已经拥有最终译文的初稿。因此,译后编辑和人工翻译可看作不同的任务。
此外,机器翻译的文本具有不同于人工翻译的特征。因此,译后编辑也可以看作是另一种形式的校对。例如拼写和笔误等错误几乎不会在机器翻译中出现,而语法或词汇等错误几乎不会在人工翻译中出现。因此,为界定译后编辑的性质,还有许多有趣的问题尚待回答。这里,我们列出了一部分:
从研究的角度来看,译后编辑“是人工译者和机器相遇的领域——也是机器翻译和翻译科学这两个学科相遇的领域”(库洛等, 2014: 35)。因此,译后编辑的跨学科研究也很有趣。
首先,我们想说明译后编辑基础理论研究的一些初步途径。由于认知和语用层面的结合,关联理论方法似乎是适合用于描述译后编辑现象的理论。译后编辑者是经过训练的专业人员,能够在目标语境中编辑机器翻译输出来弥合语言之间的交际鸿沟。这项任务是以源文本、预期接受者、目标文化和译后编辑纲要相关的充分决策为基础。
在认知层面,关联理论认为应考虑在有效且成功的交际下,用最少的努力编辑机器翻译结果。阿尔维斯等人(2016)从关联理论层面对译后编辑进行了讨论。
然而,这就意味着读者需要投入更多的认知努力,因为目标文本在语言和/或风格上并不完美。卡尔和舍费尔(2019)将关联理论与噪声信道模型相结合,从理论上探讨译后编辑。他们提出了一个“模型,其中[关联理论]通过增加关联原则建立的刺激、语境和诠释之间的因果关系的约束条件来补充‘噪声译者信道’。”(卡尔、舍费尔, 2019: 60)
除了这些理论上的考虑,还有一系列实证研究来比较译后编辑和从零开始翻译,以解决以下研究问题:
可以预测机器翻译的错误吗?可以预估译后编辑的工作量吗?
某些语言对是否比其他语言对更加适合机器翻译和译后编辑?
从方法学的角度来看,大部分研究都依赖于眼球追踪和键盘监听数据相结合的多元方法。此外,问卷描述了有关参与者的元数据,如个人资料、翻译和语言能力及经验。CRTT翻译过程研究数据库(CRITT TPR-DB,卡尔等, 2016)是一个广泛建立的研究数据库,包括多个语言对和专业的译后编辑和翻译数据。该数据库能实现不同类型数据库的三角测量,进而揭示连续和平行的认知处理行为、阅读和协作过程、译后编辑和研究策略。
不同的方法将翻译过程自动化。在此,我们将讨论基于规则的、统计和神经机器翻译的优缺点,以及他们在译后编辑工作流中的可用性。
基于规则的方法是机器翻译发展的催化剂。通常,这些系统试图定义源语言的个体特征,以及这些特征转换为目标语言的方式。多年来制定了不同以规则为基础的方法来生成机器翻译:
直接机器翻译:这类机器翻译是专为一种语言对和一个翻译方向搭建的。从本质上而言,对源文本的单词进行形态分析,然后在字典中查找,这意味着所有形态学规则都在理想情况下得到了定义,因此字典只需包含单词的词干。在接下来的步骤中,源语言的单词被替换成目标语言的单词,且应用目标语言所需的所有形态变化。
基于转换规则的机器翻译:基于转换规则的方法构造源文本(通常是树结构)无歧义的句法表达等。接着,在包含双语迁移规则的语法的帮助下,为目标语言生成这一表达。此时可生成目标文本。理论上,这些系统可能运用在两个语言方向上,但在实践中,迁移规则通常不能在两个方向上应用。
基于中间语言的机器翻译:针对这种方法,需要创建所谓的中间语言。这种中间语言以抽象的形式表示意义,理论上可以通过自然语言或人工语言或独立于语言之外的表述来实现。
对于译后编辑,这种方法似乎特别适合翻译遵循受控语言的文本。受控语言由一组规则定义,理论上可以直接在基于规则的系统中实现。但是,这些方法的主要缺点是,开发系统需要花费大量精力,因为预期系统越完善、越全面,需要定义的规则就越多。如今,基于规则的方法已经过时,并且通常只能在混合系统或者非常老旧、已建成的系统中找到。
几十年以来,统计机器翻译一直是最先进的技术。这种方法的基本思路是:通过计算源语言中最有可能等同于目标语言的单词/短语/句子,从平行训练语料库中生成翻译。统计翻译模型是基于语料库数据进行生成和训练的。单语语料库和多语语料库都用于捕捉相关语言的典型语言结构——单语语料库生成目标语言模型,多语语料库生成翻译模型。此外,统计机器翻译使用所谓的n-gram——按照概率分配的对齐单词(通常n≤7)的序列,该概率表示单词序列在训练语料库中出现的可能性。
另外,还可以在训练阶段提取额外的信息,例如相对句子长度模型。如果有对齐的平行语料库,则可以相对快速地实现统计机器翻译。在这种情况下,训练在这种情况下意味着对源文本进行分析。
译后编辑统计机器翻译文本的优势在于能较大程度地预测待纠正的错误。只要没有使用新的或扩展的训练语料库进行训练,统计机器翻译系统通常会产生同样的错误。统计机器翻译系统的代码是公开透明的,翻译概率的计算也很简单。对于给定的语言方向,可以识别出典型错误。
近期涉及统计机器翻译的开发试图将不同的方法——通常是基于规则或统计——结合到混合系统中,以便结合每种方法的优点。深度系统集成是建立一个结合两种方法优点的全新系统。而浅度系统集成是将两个或两个以上现有的系统结合为一个新系统。
最新的机器翻译方法是使用神经网络,该方法同样可应用于平行训练语料库。神经机器翻译系统建立了大型神经网络进行翻译,而统计机器翻译系统是由许多子组件组成。神经机器翻译系统采用深度学习方法并自动学习训练数据。
在神经机器翻译中至少涉及三个基本层:输入层、输出层以及中间的隐藏层。输入层处理源文本,输出层创建目标文本。隐藏层即为处理步骤。该模型可以以更精细的方法工作,当系统包含更多隐藏层时,可以处理更加复杂的任务。
神经机器翻译中常见的两种方法:transformer模型和循环编码器-解码器模型。在编码阶段,源文本的含义被编码成一个固定长度的向量。transformer系统和循环系统在源文本的编码方式上有所不同。在解码阶段,目标片段逐字生成。产出时,神经网络机器翻译系统会考虑周围的单词作为语境。该系统的缺点在于处理长句存在困难。为克服这些问题,应用了所谓的对齐模型。这些模型通常都称作注意力模型。
关于译后编辑,神经机器翻译的一大优点在于,其机器翻译结果至少在流畅度方面要比其他系统架构好得多。但是,只有用足够的训练材料来训练该系统,我们才能得到更好的机器翻译结果。如果没有足够的训练材料,我们得到的质量并不佳。小语种和罕见语种组合往往会出现问题,因为它们缺乏代表性且资源贫乏。
此外,与所有数据驱动的机器翻译系统一样,结果的良好程度取决于训练数据的质量。因此,如果我们用质量较差的数据来训练系统,我们就会得到较差的结果。这同样也适用于特定领域的翻译。如果系统在特定领域没有经过良好的训练,结果同样会不好。总之,该系统更容易受到噪声数据的影响。
然而,最新的研发成果中将神经机器翻译和特定术语的训练相结合,这就解决了领域问题(例如米雄等, 2020)。
神经机器翻译系统的另一个优点在于,其拥有一个紧凑的系统,而非由多个组件组成。但是,相对于统计机器翻译,它需要更多的训练时间和更强的计算机处理能力。
最后,需要指出的是,高质量的神经机器翻译结果带来了以下悖论:神经机器翻译的译文越好,就越难发现错误,因为神经机器翻译结果似乎更加流畅,更少出错。一方面,这对译后编辑过程提出了更高的要求,需要译后编辑者付出更多的认知努力。另一方面,由于没有“真正的”错误,译后编辑者更多地倾向于纠正风格错误,这样反倒造成了过度编辑(详见瓦尔达罗等, 2019)。因此,译后编辑者需要针对错误类型进行大量的训练和识别,以便能够有效地校正文本。
以上是本书一至三章的主要内容,请继续关注该系列后续连载~
特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。
翻译技术教育与研究——机器翻译译后编辑专题组致力于普及机器翻译译后编辑(MTPE)相关知识,追踪国内外机器翻译译后编辑教学与研究动态!