以美国本地化行业为例,对于合格的翻译和编辑来说,这应该是一个经济繁荣的时期。的确,正如美国国家语言联合委员会所说的“语言危机”时期,这个行业的运作听起来并不好。在2021年2月的虚拟语言倡导日期间,分发给美国立法者的材料给出了令人震惊的统计数据:“十分之九的美国雇主依赖拥有世界语言技能的员工,三分之一的外语依赖雇主报告语言技能差距,四分之一的雇主因缺乏外语技能而失去业务”。也就是说,与此同时,美国市场正感受到多年来在多语言教育方面缺乏投资的影响,合格的语言专业人员需求量很大,而市场所要求的角色在本质上变得越来越技术化。在《将来时:在语言专业人员和智能系统之间日益紧张的关系中蓬勃发展》一文中,杰伊·马西亚诺指出,“到2030年,语言服务专业人员将很难识别今天翻译人员的日常工作。”
在这种情况下,该行业的新来者具有特别的优势。在Slator的Pro Guide: Translation Pricing and Procurement的简报中,Anna Wyndham指出,有经验的本地化服务买家不太可能采用新的定价模式,而来自科技行业和其他行业的新买家则更愿意接受并期待基于与机器翻译完全集成的“human-in-the-loop”定价模式。同样,精明的翻译行业新手更有可能采用机器翻译作为现实角色,而更多的资深翻译人员可能不太愿意将机器翻译技术整合到他们的日常工作流程中。不管是新手还是老手,他们现在都在寻求多样化,并希望他们的服务在未来几十年保持相关性,在学习曲线变得如此之大,以至于无法有效地将其排除在关键市场之外之前,最好将机器翻译纳入其中。
本文概述了作为21世纪的翻译人员将自己重塑为语言技术专家的关键机器翻译相关服务,包括在您的投资组合中。作为语言技术人员,您在翻译方面的专业知识使您成为机器翻译引擎培训、为机器翻译编写内容以及机器翻译译后编辑的资产。本文以相反的顺序考虑这些服务,从翻译人员最有可能执行的机器翻译译后编辑服务开始,然后进一步向上游转移,首先是为机器翻译编写,然后是训练机器翻译引擎。对每种服务类型的讨论解决了常见的误解和关键能力,以便您可以开始开发将机器翻译服务添加到您的专业领域所需的技能。
服务#1 -机器翻译译后编辑
在The ATA Podcast的第49集“展望译后编辑和机器翻译的未来”中,Jay Marciano将机器翻译的译后编辑定义为“专业翻译人员在提供高质量翻译时对机器翻译输出进行审查和纠正的步骤”。按理说,Marciano认为,“译后编辑”这个术语为已经是译后编辑的角色增加了专门的含义。总而言之,传统翻译不仅意味着发明全新的副本,理解为“新词”的翻译,而且还意味着在片段水平上编辑翻译记忆库输出的行为,所涉及的工作水平取决于共享、专有资源的贡献者的质量,以及翻译源片段与翻译记忆库内现有片段的匹配程度,通常从75%匹配到以上。合并使用机器翻译预翻译的片段为人工译后编辑增加了另一种片段类型,尽管术语“译后编辑”本身专门用于表示审查机器翻译输出的工作。
认为机器翻译的译后编辑比传统的人工翻译需要更少的技能是一种误解,这种误解自机器翻译出现以来一直在翻译领域流传。这种误解与几个因素有关。其中一种过时的看法是,机器翻译产生的输出质量很差,重复性太大,人类无法对其进行审查。旧的基于规则的模型或统计模型对于翻译性能相对于跨部门语言圆桌量表等级较低的内容确实表现得更好。跨部门语言圆桌量表由5个等级组成,第2级及以下表示表现有限或最低,第3级及以上表示专业表现水平。传统上,基于规则的模型和统计模型最适合于符合跨部门语言圆桌量表等级2的文本,或者像使用受控语言产生的指令集这样的直接文本,这些文本几乎没有给创造性解释留下空间。ATA认证是一种职业中期认证,表明翻译人员达到了跨部门语言圆桌量表的3级,而旧的机器翻译模型根本无法与专业人员竞争,因为这些内容以抽象语言、暗示和细微差别为特征,需要人类思维来分析。然而,机器翻译技术已经以光速发展,即使机器翻译不能超过人类翻译的质量,但使用人工智能和神经机器翻译可以达到的流利程度和对应程度是惊人的。对于那些喜欢研究人类和机器语言交集的人来说,这项工作中遇到的语言挑战也很有趣。
无论机器翻译引擎设计用来预翻译的内容有多复杂,机器翻译引擎都远不能取代人类。根据ATA关于机器翻译的立场文件,这是因为“计算机在计算某种翻译的可能性方面可以非常复杂,但它们既不理解源文本,也不理解目标文本,语言还没有被一组计算捕获。”虽然机器翻译的结果一直在变得越来越好,但当需要确认任何程度的准确性或抛光时,专业的译后编辑器是做这项工作的人。根据ISO 17100翻译服务-国际标准化组织对翻译服务的要求,翻译人员的专业能力包括:翻译、源语和目的语的语言和文本能力、研究、信息获取和处理以及文化、技术和领域能力。专业性是根据ISO 18587 -翻译服务-机器翻译输出的译后编辑-要求,在ISO 17100中为翻译人员增加的能力。这种专业精神需要了解机器翻译技术、机器翻译产生的常见语言错误和计算机辅助翻译工具,以及进行语言分析、提供结构化反馈以改进机器翻译输出的能力,并与术语管理系统互动的能力。
为了应对机器翻译译后编辑带来的语言挑战,需要对关键的译后编辑概念以及这些概念与译后编辑规范的关系有透彻的了解。回顾一下,规范概述了购买者的需求和目标用户的期望,这些需求和期望改变了本地化服务的产生方式。对于机器翻译而言,所生产内容的价值主张将决定是轻度译后编辑还是全译后编辑,即TAUS MT Post-Editing Guidelines中所说的“足够好”或“人工翻译”的质量。如果需要轻微的译后编辑,例如在交付速度优先于流畅性和文体化的情况下,译后编辑将对原始机器翻译输出进行最小程度的干预,以纠正不准确的含义,语法和拼写错误以及文化冒犯性内容。如果要求进行完整的译后编辑,则还需要对术语、产品名称和文本的机械方面进行更大的一致性检查。
在轻度或完整的译后编辑模型中,纪律是关键,在译后编辑中,纪律是通过使用最少的击键次数来进行必要的修改来展示的。经验丰富的译后编辑可以快速区分哪些片段足够好,哪些片段需要稍微修改,哪些片段需要从头开始。本地化经理使用编辑后距离——或者原始翻译输出和编辑后内容之间变化的度量——来衡量翻译引擎和编辑后工作的整体质量,并识别编辑过度和编辑不足的情况。根据eBay的Silvio Picinini的说法,较低的编辑距离可以是质量和生产力的一个指标,因为如果机器翻译引擎和译后编辑器都受过良好的训练,那么应该会导致较低的编辑距离。Sharon O ‘Brien在2002年的论文《译后编辑教学:课程内容建议》中,为有志于从事译后编辑工作或培训译后编辑的学生推荐了以下课程:《Introduction to Post-editing》、《Introduction to Machine Translation Technology》、《Introduction to Controlled Language Authoring》、《Advanced Terminology Management》、《Advanced Text Linguistics》、《Basic Programming Skills》。
服务#2 -为机器翻译写作
在一个每天都有越来越多的数据被生成的世界里,这些数据的作者可能根本不是好的作家,更不用说翻译内容的优秀作家了。在包含机器翻译的工作流程中,专业语言学家有机会在任何内容被导入到为机器翻译译后编辑生成原始输出的引擎之前就参与进来。就像围绕人工翻译构建的工作流一样,如果源内容是为翻译而编写的,那么结合机器翻译的工作流也会受益于效率和质量的提高。人工翻译的本地化工作流程已经包含了源内容的复制编辑,以促进翻译过程中的顺利处理,特别是在涉及多种目标语言的情况下。这个拷贝编辑阶段减少了在工作流程中间进行澄清的需要,并通过在将源内容发送翻译之前识别和纠正源内容中的歧义和不一致,防止了由于误解和可理解性差而导致的大量返工。
一旦文章编辑对语言对、主题领域和文本类型中常见的错误有了良好的认识,他们就会更有能力定制针对机器翻译的最佳写作建议,而对于某些文本类型和主题领域,专业的建议可能只是机器翻译是不够的。在人工翻译和机器翻译之前应该标记的歧义和不一致包括不明确的指示物、同义词的使用、长复合名词和对同音异义词的误解,以及许多其他文本特征。
当开始为机器翻译写作时,受控语言和普通语言的原则也有很好的通用规则可以应用。例如,Uwe Muegge的《统一翻译的受控语言优化》(Controlled Language Optimized for Uniform Translation)包括这样的指导原则:每句话只表达一个意思,使用简单而完整的语法结构,通过重述名词来限制代词的使用,以及使用冠词使名词易于识别;国际通俗语言协会建议避免行话,使用简单的词语。控制语言和通俗语言的规则可能意味着这些交流形式很容易使用,但即使是识别这些原则所包含的无数文本特征也需要大量的研究、实践和经验。例如,欧洲航空航天和国防工业协会(AeroSpace and Defense Industries Association of Europe)的一种受控语言《简化技术英语》(Simplified Technical English)由9个不同类别的65条书写规则和一本收录了近1000个认可单词的词典组成。
服务#3 -培训定制机器翻译引擎
机器翻译的发明在很大程度上仍停留在程序员和工程师的领域。尽管明显缺乏语言学家参与机器翻译的开发,但训练定制的机器翻译引擎需要如此多的高质量数据,因此在进行昂贵的人工数据收集过程之前,让语料库语言学家参与进来是完全有意义的。语料库是为特定目的而选择的文本的集合。一般的语言语料库将包括数百万个单词,而由特定主题领域的专家编写的专门文本语料库可能只包括数十万个单词。在训练机器翻译引擎时,无论是基于规则的、统计的还是神经模型,最常寻求翻译和对齐片段的平行语料库。然而,高质量的并行语料库需要很长时间来构建,并且在任何现成的格式中都很难找到。由于高质量的平行语料库很难找到,对于资源较少的语言,那些训练机器翻译引擎可能会转向可比较的语料库,或多种语言的相似文本集合。
在构建单语语料库时,语言学家将能够识别最具代表性的数据特征,以便为每个语料库收集数据,并在此基础上训练机器翻译引擎。语料库可能包括一个由特定主题领域的专家在每种语言中编写的一般内容的技术语料库,以及一个特定于客户的每种语言专有产品文档的语料库。由于机器翻译是使用人类产生的语言进行训练的,因此它复制了人类的偏见。语言学家可以通过识别语料库中没有充分代表的特定人群、地理区域或语言方言,帮助识别和减轻在大型数据集中表现出来的种族和性别偏见。他们可以通过从语料库中删除任何不适合使用的内容来提供帮助。因此,机器翻译用户不会被机器翻译引擎产生的攻击性语言所侮辱,机器翻译开发者也可以避免疏远机器翻译用户。在《福布斯》发表的一篇题为《避免机器翻译中的偏见和歧视》的文章中,Salvador Ordorica举例说明了机器翻译中种族和性别偏见的突出表现以及如何克服这种偏见。
大多数想要成为本地化人员的人只需要看看他们指挥下的翻译记忆库,就可以开始练习管理平行语料库。包含高质量内容的翻译记忆库非常受欢迎,但很难找到,这使得高质量的翻译记忆库非常有价值。当一个人对翻译记忆库做出贡献时,每个部分都应该使用匿名的客户和项目标识符进行标记,以便以后可以根据需要隔离个人客户的数据,以遵守管理所生成内容使用的任何保密协议。如果多个客户的内容混合在一起,那么用于训练机器翻译引擎的整体翻译记忆库将出现语言模式,因此从该内容生成可区分的副本也是需要考虑的挑战。语言学家可以在风格和术语指导方面提供帮助,从而使翻译和翻译的区别成为可能。如果有多人对翻译记忆库做出贡献,请保持所包含的人员数量和他们的标识符清楚地记录下来,并对受版权保护的资产进行适当的保护,包括根据源和目标部分的生产者的质量对内容进行评级的能力,并在必要时撤销访问权限。再次,采取这些预防措施,因为高质量的翻译记忆库使机器翻译发动机的培训更加有效,因此这些翻译记忆库的价格非常高。
根据技能定价机器翻译服务
总之,为了使机器翻译服务多样化,翻译人员应该在计算机辅助翻译工具、一般技术和语言译后编辑方面发展先进的技能,将提供的服务与规范中传达的质量期望相匹配的能力,以及控制语言、语料库构建和分析、大规模的机器翻译管理、术语管理和数据安全方面的知识。不管在机器翻译中工作所需要的广泛的能力,要知道,习惯了按字定价模型的传统买家倾向于将机器翻译的合并视为以比机器翻译定价模型更优惠的价格购买翻译服务的机会。正如Slator在《专业指南:翻译定价与采购》一书中所强调的那样,新的买家意味着新的定价模式成为可能。当与新买家合作时,转向基于价值的定价模式,以更充分地补偿你丰富的专业知识。最重要的是,请记住,在机器翻译的设计、实现和审查中,教鹦鹉说话是目标之一,但如果你能教鹦鹉说正确的话,那就更有价值了。
(机器翻译,轻度译后编辑,仅供参考。)
编辑:曾钰璇