1. 什么是语言服务行业?
2. 语言服务行业的标准和规范有哪些?
2003年起,中国译协陆续推动制定了语言服务行业国家标准,截至目前,已制定28部国家标准、团体标准和行业规范,涉及领域包括行业术语、报价、翻译硕士专业学位(MTI)实践教师/基地认证、供应商选择、质量评估、服务要求、口笔译人员基本能力要求等。其中包括《翻译服务规范 第1部分:笔译》、《翻译服务译文质量要求》、《翻译服务规范 第2部分:口译》、《翻译服务培训要求》、《翻译服务采购指南 第2部分:口译》、《中国职业译员道德规范》、《中国时政话语翻译基本规范英文》、《多语种国际传播大数据服务 基础元数据》、《中国特色话语翻译高端语料库建设》系列标准、《专利翻译服务规范》等。
就国际而言,国际标准化组织语言与术语技术委员会(ISO/TC 37)负责术语、笔译、口译及其他语言活动相关的标准化工作。截至2021年1月,ISO/TC 37共发布了70项标准,在编31项标准。
3. 语言服务行业有哪些发展趋势?
随着全球化时代的到来,语言服务行业日益重要且发展壮大,成为我国经济发展的支持性行业。整体上呈现出:全球化、产业化、集群化和智能化等。
(1)需求不断增大,无论是基础的口笔译还是陪同翻译。随着全球化的加速和跨境电商等行业的崛起,多语言本地化需求不断增长。各种产品和服务需要针对不同市场、不同语言环境进行本地化,这给语言服务行业带来了巨大的机遇。
(2)服务标准更加高,并且更加贴近国际化。国际化标准的实施能够提高语言服务的质量,并确保语言服务符合国际上的标准和规范。这将有助于消除语言服务行业的信息不对称、低效率等问题,提高服务质量和客户满意度。
(3)翻译技术不断提升,机器翻译和AI翻译越来越重要。随着人工智能和自然语言处理技术的快速发展,机器翻译技术的质量不断提高。这使得机器翻译在某些场景下已经可以替代传统的人工翻译。虽然机器翻译技术在不断进步,但是目前仍无法替代人工翻译。因此,在实际应用中,人工翻译和机器翻译将会结合使用,以达到更好的效果。
(4)语言服务行业与国家政策的关系也越来越紧密。特别是在我国一带一路的背景之下,语言服务业的发展也深受影响。
4. 新时代译者需要具备什么样的能力?
总的来说,新时代需要的译者是综合的多方面的。译者不仅要了解语言,更要理解技术,具有沟通处理能力。
(1)语言能力:首先,作为一名译者,必须有扎实的语言功底,包括熟练掌握翻译语言和母语,以及良好的听、说、读、写等语言技能。也就是双语转化能力。
(2)行业知识和背景:对于特定领域的翻译,译者还需要掌握该领域的专业知识和背景,了解其中的术语和行业规范。
(3)技术能力:随着数字化和信息化的发展,译者需要掌握相关的技术和工具,如机器翻译、计算机辅助翻译等,以提高工作效率和质量。
(4)跨文化沟通能力:随着全球化的加速,跨文化沟通已成为不可避免的趋势。译者需要能够理解不同文化之间的差异,从而更好地进行翻译工作。
(5)学习能力和适应性:语言服务行业在不断变化和发展,译者需要具备学习能力和适应性,能够及时更新自己的知识和技能,应对市场需求的变化。
(6)专业素养和职业道德:译者需要具备高度的专业素养和职业道德,如保守商业机密、尊重版权、保证翻译质量等。
5. 什么是翻译技术?
翻译技术(Translation Technology)是使用支持将书面文本从一种语言转换为另一种语言的过程的软件工具。与大多数由技术辅助的工作一样,翻译技术工具可以提高生产力、准确性和整体效率。
在翻译技术出现之前,翻译是人工完成的,翻译人员查阅纸质词典并使用他们的最佳判断力。“翻译技术”一词涵盖了从翻译记忆库和术语管理工具到机器翻译 (MT)、虚拟口译技术,甚至语音转文本技术的方方面面。
翻译技术可以细分为几个主要组成部分:
2.机器翻译 (MT) 机器翻译 (MT)是一种自动化系统,无需人工干预即可生成翻译内容。如本指南前面所述,机器翻译并不是一个新现象。然而,近年来发生的技术进步导致 MT 的使用有所增加。机器翻译与 CAT 工具的不同之处在于它不依赖人工输入,而是完全自行生成翻译。
3.翻译管理系统 (TMS) 翻译管理系统 (TMS)是为大规模翻译项目管理而设计的软件平台。它简化了从开始到结束的翻译流程,创建了从初始请求到项目完成的工作流程,并允许用户以有组织的方式计划、分配和管理翻译项目。
6. 翻译技术有哪些主要作用?
翻译技术在翻译行业中所发挥的作用日益突出。大规模语言服务是世界范围内经济、政治、文化交流的必然结果,更是必要保证条件。语言服务保质保量的关键在于信息技术和管理技术的普及和应用。翻译技术已经成为新时代译员为提高效率、加强合作所必须要学习和掌握的东西。
(1)团队翻译的辅助工具:广义的语言服务中,我们更强调与其他行业的衔接关系和共生关系,在语言服务的目的论中,我们也更重视服务的经济性与服务对象的商业目标或其他根本性目标的达到与否。为完成这些工作,可能需要程序员与翻译工作者的密切配合,不只如此,团队中还可能会加入商务人士,因为需要让本地化工作与当地的广告、市场开拓工作相衔接;加入法律人士,避免国家间法律的冲突及更好的遵从本地法律……。随着团队规模的扩大,管理人员必不可少,所谓项目经理(PM,Project Manager)的地位愈发重要。如此大规模的团队工作,在今天,离开信息技术的支持是不可想象的。语言服务保质保量的关键在于信息技术和管理技术的普及和应用。比如术语自动提取技术,一种应用是可以在翻译前自动寻找文中的特定词汇并提前翻译,为团队翻译的一致性打下基础。
(2)翻译质量的保证:除了译者的责任心,还需要有相应的技术工具支持。从最简单的拼写检查,到格式检查,甚至与各类自然语言处理工具相结合的文字通顺度和译文语义完整性等等。这些工具也在快速发展,日益进步之中。翻译工作者们也决不可以忽视。
(3)翻译效率的提升:在翻译好的文本对中,借助工具自动分析原文和译文,并提取出词汇/短语翻译对,留待进一步加工和利用,这样可以大大提升翻译的工作效率,减少重复工作。
7. 翻译技术有哪些主要标准?
当下科学技术迅速发展,翻译技术的工具也日益广泛,数据交换也越来越频繁。因而制定翻译技术标准的主要作用在于促进不同翻译工具之间的数据兼容、交换与共享,提高翻译与本地化效率。
翻译技术的执行常用标准主要涉及翻译记忆库,术语库,本地化领域等。常见的如下:
(1)翻译及以交换标准
翻译记忆交换标准是指用于描述和交换翻译记忆库数据的标准。翻译记忆库是一种基于文本片段的翻译资源,可以帮助翻译人员快速、准确地进行翻译。翻译记忆库交换标准可以确保不同翻译记忆库之间的互操作性,使得不同的翻译工具可以共享和使用相同的翻译记忆库数据。
(2)断句规则交换规则
断句规则交换标准是用于描述和交换断句规则数据的标准。断句规则是指一组规则,用于将文本分割成适当的句子,以便进行翻译和其他语言处理任务。断句规则交换标准可以确保不同断句工具之间的互操作性,使得不同的断句工具可以共享和使用相同的断句规则数据。
(3)全球信息管理度量交换标准
全球信息管理度量交换标准是用于描述和交换全球信息管理度量数据的标准。全球信息管理度量是指评估跨文化和多语言环境中信息管理流程的有效性和效率的方法。全球信息管理度量交换标准可以确保不同全球信息管理度量工具之间的互操作性,使得不同的工具可以共享和使用相同的全球信息管理度量数据。
(4)本地化交换文档格式标准
本地化交换文档格式标准是用于描述和交换本地化文档格式数据的标准。本地化是指将文档或软件产品调整为适应不同的地区和语言环境,包括文字、图像、日期、时间等。本地化交换文档格式标准可以确保不同本地化工具之间的互操作性,使得不同的本地化工具可以共享和使用相同的本地化文档格式数据。
(5)达尔文信息类型化体系结构标准
达尔文信息类型化体系结构标准是用于描述和交换信息类型化数据的标准。信息类型化是指将信息分为不同的类型和子类型,以便进行分类、搜索、过滤和其他信息处理任务。达尔文信息类型化体系结构标准可以确保不同信息类型化工具之间的互操作性,使得不同的工具可以共享和使用相同的信息类型化数据。
8. 什么是口译技术?
口译技术是指通过语言转换将一种语言的口头表达转换为另一种语言的口头表达的技术。口译技术是现代社会不可或缺的一项技术,应用范围广泛,包括国际会议、商务谈判、外交交流、国际旅游等多个领域。包含远程口译、电话口译、电视口译以及视频会议口译等。
口译技术是一个综合性的技术,需要具备多方面的能力和技能才能胜任。随着技术的不断发展和进步,口译技术也在不断地完善和改进。其中机器口译指的是让计算机实现从一种语言的语音翻译到另一种语言的语音的自动翻译的过程。
9. 什么是远程口译技术?
根据Braun的定义,远距离口译(Distance Interpreting)指利用远程通信技术来进行的口译活动。根据交流媒介的不同,可分为视频口译(Video-Mediated Interpreting)和电话口译(Telephone-Mediated Interpreting)。视频口译包括远程视频口译(Video Remote Interpreting,简称VRI)和视频会议口译(Videoconference Interpreting,简称VCI)。
根据各参与方与口译员所处位置的不同,还可以分为远程会议口译(Teleconference Interpreting)和远程口译(Remote Interpreting)。远程会议口译指会议参与方处在两个或多个地点,包括电话会议口译(Telephone/Audioconference Interpreting)和视频会议口译。
新冠疫情的持续蔓延和常态化,让在线办公日渐成为企业刚需,应运而生的线上会议口译需求也日趋火爆。线上会议口译主要面向以下三大应用场景:
-
跨语言工作汇报、交流 -
跨语言行业讲座、学术研讨、圆桌会议等活动 -
跨语言线上线下联动的跨国品牌、产品发布会
远程口译具备很多优势,比如:
-
降低成本:由于与旅行,住宿和其他考虑因素相关的费用,带口译员参加活动的成本可能会很高。有了远程同声传译,译员可以通过他们的互联网连接在任何地方工作,因此不需要他们本人。你还可以减少专门的音响棚和其他必要设备的租赁费用。 -
简化:当你不必担心协调多人的物理到达时,计划变得更容易。当大会和会议在最后一分钟被安排或修改时,快速而容易的计划尤其有益。 -
灵活性:可以随时随地访问,所需要的只是一个高速互联网连接。上手时间短,因此口译作业可以很容易地改变和重新安排,无论听众人数多少。 -
更深入:与交替传译的局限性相比,RSI允许更多的听众接触到在线会议。一个在线会议可以同时翻译成几种不同的语言,而不是只提供一种或两种语言。在以前难以到达的地点也可获得区域服务。可能性是无穷无尽的! -
可伸缩性:无论你的受众是由15个还是500个参与者组成,你都可以为其提供服务。今天的RSI平台通常每种语言可以容纳多达3,000个用户。 -
质量:尽管译员可能在数百或数千英里之外,但由于采用了最先进的RSI技术,音频质量没有受到影响。在翻译方面,由于地理位置偏远,可以找到最好的口译员。这意味着你会得到最优秀的人才,而不仅仅是地理位置最近的人才。
10. 什么是AI辅助写作?
随着人工智能技术的发展,AI智能辅助写作在很多领域都发挥着重要作用。AI智能辅助写作(Automatic Writing Assistance,AWA)是一项新兴的信息处理技术,它专注于为学术写作和其他文字处理任务带来创新改进。AI辅助写作不仅可以加快文字处理速度还可以优化文章内容,为学者、教师、企业家提供高效写作支持。
AI智能辅助写作神器通过人机交互的方式将人工智能应用于文字处理的领域。它通过语义分析、句法分析、语义解释等手段针对中文或其他语种的输入重新组合许多生成复杂含义的语义表达,使用户在少量时间内实现出佳的文章。
11. 什么是计算机辅助翻译(CAT)?
狭义上,计算机辅助翻译技术通常指利用翻译记忆的匹配技术提高翻译效率的翻译技术。它利用计算机模拟人脑记忆功能的机制,将翻译过程中简单、重复性的记忆活动交给计算机来做,将译者从机械性的工作中解放出来,以全力关注翻译本身的问题,使“相同的句子永远不需要翻译第二遍”。这不仅大大提高了工作效率,而且有助于在译文中形成统一的翻译风格。
广义上,计算机辅助翻译相当于翻译技术,可以涵盖译者在翻译过程中可能用到的提高翻译效率的信息技术,例如,译前的编码处理、可译资源提取、字数统计、任务分析、术语提取等;译中的片段复用、搜索验证、术语识别、进度监控;译后的格式转换、模糊匹配、自动化质量保证、语言资产管理等;以及语料自动对齐、机器翻译、语音输入、语音翻译等技术。
12. 常见的计算机辅助翻译工具有哪些?
计算机辅助翻译工具(CAT工具),是一种帮助翻译人员和语言学家以所需语言翻译文本的工具。广义上涵盖全部帮助翻译人员工作的软件,包括电子词典、搜索引擎以及文字处理软件等,狭义上指为翻译任务及其管理专门设计的计算机工具。它与机器翻译有所区别,计算机辅助翻译工具仍以人为主导,可帮助人类翻译文本并将文本保存到称为翻译记忆库(TM)的数据库中。
(1)国内
a. 快译点
网址:http://www.91kyd.com/index.html
快译点是一款功能强大的云翻译辅助软件,不仅包含了传统的CAT软件的翻译记忆功能,同时也为用户提供词汇辅助、参考辅助、输入辅助、项目管理、语料管理等功能。
b. YiCAT
YiCAT为Tmxamll旗下的在线翻译管理平台,直接打开网页就可以免费使用,基本具备CAT的所有核心功能,例如翻译编辑器、翻译记忆库、术语库、机器翻译、质量保证、翻译项目中的任务分配和管理等,使用操作也很便利。
c. 雪人CAT
雪人计算机辅助翻译软件(雪人CAT)充分利用计算机技术,减少翻译工程中的重复劳动,提高工作效率和实现翻译资料的自动积累。雪人支持过百万句的记忆库和超过50万句/秒的搜索速度,为大型记忆库在翻译中的应用提供了强有力的支持。软件还提供了高效的双语对齐工具,帮助译者将各种双语资料快速转换为可用于翻译工作中的记忆库。
(2)国外
a. SDL Trados
SDL Trados是近两次课堂上操作学习的CAT工具,是这个行业的领头羊,也是翻译本地化领域的从事者必不可少的工具。既可以下载到桌面使用,也可以通过云端在线使用。SDL Trados具备几乎所有核心功能,例如翻译记忆库、术语库、机器翻译等功能,也支持导入多种文件类型。
b. MemoQ
MemoQ可将翻译编辑功能、资源管理功能、翻译记忆、术语库等功能集成到一个系统中,以便用户功能切换。基于其术语库和记忆库都是线上储存,支付款项也是线上完成,所以非常便利。此外,MemoQ也是集成外部翻译记忆库、术语库最全的一款翻译辅助软件。凭借外部海量语言资产的接入,极大地提高了辅助翻译的效率,成为计算机辅助翻译软件的新兴力量。
c. SmartCAT
SmartCAT是一款基于云计算环境的软件,能够满足公司(包括翻译公司)和自由译员的翻译工作流程需求。因此,它的定位较为多元,既是一款计算机辅助翻译软件,又是全球化管理软件和外包平台。
13. 什么是翻译记忆(TM)?
14. 什么是预翻译?
预翻译是 CAT 或本地化工具的一项功能,可以为译员减少工作量,提高翻译效率。
针对于已翻译过的内容,可以使用机器辅助翻译工具,将符合匹配要求的记忆库句段或机器译文进行自动翻译和填充,这就是借助TM记忆库进行预翻译。所以在预翻译之前,首先要确保项目已经关联了记忆库,选择预翻译的范围和条件,以memoQ为例,可以选择对哪些文件进行预翻译,以及你要使用的记忆库和语料库,如果找不到匹配句段,选择哪个机器翻译等等(借助MT进行预翻译)。
SDL Trados的预翻译功能中,用户可以自定义最低匹配率,如果记忆库中某对应句段低于该匹配率,则不会生成译文;在翻译覆盖模式中,可选择“如果找到更好匹配则覆盖现有翻译”,以此提高译文整体质量;可确认100%匹配后,直接进行自动确认。
15. 什么是伪翻译?
伪翻译(pseudotranslation)是模仿将文件翻译成另一种语言的过程。它是一种虚拟翻译,需要尽可能模拟出经过实际翻译的文本的长度与字符。这一过程主要用于发现编译和执行本地化翻译时潜在的问题,以测试应用程序是否可以在另一种语言中正常运行。
-
-
若一个软件在设计时并未将本地化能力(localizability)纳入考虑,那么在实际针对这软件进行本地化翻译时,将有可能会面临以下问题:
-
-
文字截断或界面显示问题 对于软件的菜单、文字区域、按键、复选框等,设计者在做界面设计时通常先调整出适切于源语言文字长度的大小(通常为英文),并进一步调整界面的对齐、位置、行距等。然而,一些源语言被翻译后,往往会增加长度,并且不适合UI约束,或者导致文本在尴尬的位置中断。例如德文或是挪威文通常都比英文长,于是原始的界面大小便会显得过小而无法正常显示翻译后的文字,导致翻译后的文字被截断而难于辨识。 -
文字或符号无法正常显示 一些语言的文字或符号可能因为软件原始指定的字形并未支持,而导致无法正常显示。这一问题也会出现到输入端,某些程序员错误的假设用户在输入时不会输入一些特殊字符或是特定语言的文字,而导致用户在实际操作软件时发生问题。 -
文字阅读顺序出现问题 有一些语言的阅读顺序不是从左到右,这对用户输入来说尤其麻烦。例如,在阿拉伯语中,单词的流动是从右到左(RTL),但当写数字时,它是从左到右写的(LTR)。 -
延误产品测试进程和上市进程 针对一些已然成熟且多数的目标语言翻译已经可以获取的软件而言,或是仅会有少量界面变更的软件,直接将翻译套用至该软件并进行多个语言的测试,可能是最直接且最好的测试方式。而针对一些新开发的软件,或是将会有庞大的界面变更的软件,等待翻译完毕之后再进行界面测试,则可能因此延迟了整个测试的时程。并且,在软件开发的初期也不见得会开始进行界面文字的翻译,因为界面有很大的机率会被调整甚至重新设计。若要等到产品比较成熟后,开始进行界面翻译,然后才进行翻译的界面测试,产品的上市时程将可能因此被延误。在这样的状况之下,伪本地化将会是最佳的选择,其中一个原因是不必真正完成翻译。
-
-
使用伪本地化进行软件测试可以做到以下方面:
-
-
确定是否存在硬编码的字符串,如果所有的字符串都是增加了前缀或后缀,或用本地化字符替换了,那么运行软件时出现的英文字符串则属于不能本地化的硬编码缺陷,即这些英文字符没有包含在可以本地化的资源文件中。 -
由于字符串在英文基础上增加了前缀和后缀,因此不仅可以发现字符扩展的问题,避免截断问题,还可以发现缓冲区溢出问题,在使用伪本地化测试发现功能问题时,很可能是缓冲区溢出问题。 -
可以发现字符串串联的问题,就是一个长字符串是根据程序运行过程中变量的值由两个或多个字符串拼接而成,这样会影响本地化的翻译工作。我们可以根据字符串的前缀和后缀来分析字符串,判断这类问题。 -
可以发现一些对话框大小的硬编码问题,如果对话框大小不能根据对话框上的显示文字多少进行变化,则会影响本地化翻译后的显示。 -
针对语言之间文字阅读顺序有差异的情况,伪本地化文本可以模仿目标区域设置的行为,并涵盖双向(BiDi)文本等场景,避免文本阅读顺序出现错误而造成的阅读障碍。
16. 什么是译前准备?
对于人工笔译、口译,译前准备指的是了解相关领域的知识、专业名词、平行文本等,以便在正式翻译过程中能节约时间,提高效率和精准度,可以掌握主动权,更快地接受输入,更灵活地产出表达。
而对于机器翻译以及本地化来说,译前准备主要包括了资源准备和预处理等方面。
-
资源准备指的是人力和工具两方面的准备。人力方面,要挑选合适的翻译人员,对他们进行专业领域知识的培训,以及本次任务项目的格式要求、客户特定需求等。工具资源除了硬件设备以外,还需要准备记忆库、术语库项目参考文件以及风格指南等。 -
预处理是个较为复杂的过程,需充分利用语言处理技术。比如将客户提交的文件进行格式转换,对原文进行分析,以提取重要的字词句,并利用自然语言技术分析原文的大意。再用机器翻译系统对原文进行预翻译。另外通常还需要对原文进行必要的译前编辑工作,利用语料库纠正原文中的错误,改进原文表达的规范性。
17. 什么是机器翻译(MT)?
根据ISO/DIS 17100:2013标准的定义,机器翻译(Machine Translation)是“使用计算机系统将文本或语音从一种自然语言自动翻译为另一种语言”,因此,机器翻译也可称为“自动翻译”。近年来,随着机器学习、自然语言处理等领域的发展,机器翻译已经全面转向神经网络翻译时代,与人工智能技术的融合度越来越高。因此,机器翻译还可称为“人工智能翻译”。
机器翻译的基本方法可以分为基于规则的机器翻译(RMT)、基于统计的机器翻译(SMT)、神经网络机器翻译(NMT)三种。
18. 机器翻译是否会取代人类译者?
机器翻译可能会淘汰一部分低端译者,但并不会完全取代人类译者,未来将会是人机互补的时代。原因如下:
简言之,机器翻译目前还存在着许多技术和伦理层面的问题,同时给人也带来了新的机遇。机器翻译虽然会部分取代人类的翻译工作,但不会完全取代人类译者。人类译者应充分利用技术发展的成果,促进人机协同和互动。
19. 什么是机器翻译译后编辑(MTPE)?
机器翻译(MT)能够快速解读大量文本,可以降低成本、缩短翻译周期。但机器翻译的缺点是其不能像人类那样进行翻译,并且无法体会到不同语言间的细微差别或文化差异。鉴于其固有的缺陷,机器翻译最好是能够用在内部发行、不公开出版的材料上。因此,编辑机翻文件是确保文件翻译准确性的关键,面对客户时尤为如此。这便是“译后编辑”(PE, Post Editing)。
20. 译后编辑对于译者哪些技能要求?
译后编辑定义来自2010 TAUS实践中的译后编辑报告:“译后编辑是用‘最少的人工’改进机器生成的翻译的过程。”此定义中的关键是“最少的人工”。译后编辑者不需要重写整个句子(除非这些句子很明显是胡说八道或存在言语混乱的问题),因此他们仅应修改必要内容以使句子更清晰易懂。
因此,译后编辑者的技能的技能要求与修订者不同:修订者必须对源语言和目标语言、翻译技巧和特定领域都有全面的了解,而译后编辑者甚至可能仅懂一种语言。但是,不管怎样,他们必须对目标语言和特定领域有深入的了解,并且最好对机器翻译的工作原理有所了解。
21. 什么是术语管理?
术语管理(Terminology Management)是任何对术语信息的深思熟虑的加工。主要包括系统化的收集、描述、处理、记录、存贮、呈现及查询特定专业领域中专业词汇的活动。
22. 什么是术语管理技术?
术语管理技术指用于管理术语数据的软件程序,借助专业的术语管理工具可以进行有效的术语管理。
-
术语转换:术语数据转换功能是指将非结构化的扫描文件转换为计算机可以识别的、编辑的数据文件,或者从一种特定的数据格式转换为其他格式。术语管理工具通常可以将术语数据导入或导出为指定的术语格式。 -
术语标注:术语标注通过自动化的术语管理工具在翻译文件中自动查找库中出现过的术语,并以批注的方式插入到文本编辑器中,这是常见的术语标注方法。翻译之前,可利用术语工具完成术语自动标注工作,从而大大减少术语查询工作量,提升翻译效率。 -
术语提取:术语提取是从术语收集过程中所得材料或数据中分析并识别术语的过程。根据工作主体不同,术语提取可分为人工手动提取和机器自动提取。机器自动提取术语的方法主要包括基于词典、基于统计、基于语言规则、基于机器学习的方法以及结合其中若干种方法。基于词典的方法进行提取的机制是匹配专业词典中的词条。基于统计的方法利用的是术语的统计属性,以此进行术语识别,从而完成提取。基于语言规则的方法则结合外部信息(即术语上下文)和内部信息(即术语的内部组成成分)来识别术语,完成提取。基于机器学习的方法如利用统计模型(如隐马尔科夫模型)进行识别中文术语。 -
术语应用:术语应用泛指在术语数据库或术语系统中进行术语的搜索、识别和编辑等功能。在创建术语库的时候,通常会明确术语库的使用对象、使用范围、语言对、术语结构、设计字段、定义层级结构以及项目其他属性等信息。在翻译的时候,系统可以自动识别译文中的相应的术语,并根据设置的规则,相应地插入到译文区。用户也可以在单独的一个或多个术语库中进行串行或并行搜索,快速找到所需要的专业术语。用户也可针对某个术语或批量的术语进行术语编辑操作,比如,修改术语状态、标记术语级别、删除术语信息等。 -
术语质量保障:术语质量保障分为两个方面。第一,术语入库质量机制保障,根据专门的流程,确保术语各项属性信息遵从项目的术语规范或术语风格指南。第二,对翻译项目中术语质量的验证,通过设置术语质量标准,加载核实的术语库,对项目中的术语进行验证。在 SDL Trados Studio 中,在翻译项目完成之后,通过“术语验证器”进行全局术语质量验证。
23. 什么是术语管理系统?
术语管理系统的是一系列包括维护数据库、处理术语资源、识别多个对等语、建立术语词典和术语表等功能在内的模块集合,并且能够有效地共享术语。
24. 什么是语料库?
(1) 语料库的定义
梁茂成老师在其《语料库应用教程》一书中对语料库作出的定义如下:语料库 (corpus,复数为 corpora)一词来源于拉丁语,本意为 body。如今我们谈到语料库时指的往往是一个“电子文本集”(a collection oftexts storedin an electronic database)。一个小型文本集并不是真正意义上的语料库。真正意义上的语料库是一个按照一定的采样标准采集而来的、能够代表一种语言或者某语言的一种变体或文类的电子文本集。可以说,一个语料库由若干个电子文本构成,而这些电子文本作为一个整体可以代表某语言或者某语言的某种变体或文类。因此,以一个语料库为数据源(data source)进行的研究可以看作是对该语料库所代表语言、语言变体或文类的研究,研究所得到的结论可以推广到整个语言、语言变体或文类。
秦洪武老师在《双语语料库的研制与应用》一书中对语料库做了如下解释:Kenny(2001:22)将语料库定义为“依照某种原则方式所收集的大量文本的总汇”。早期的语料库主要通过人工收集,规模小、应用范围窄,主要用于词典编纂、语法研究、方言研究以及语言习得研究。而现代意义上的语料库是指“按照一定的语言学原则,根据特定语言研究目的,运用计算机技术大规模收集多种文本语料的电子语料库”(王克非 2012)。语料库主要有以下特点:1)规模大。随着信息处理技术飞速发展,当代语料库的规模空前提升,库容达几亿词乃至几十亿词的语料库并不罕见。2)代表性。按照语料总体建立的抽样结构能保证样本选取代表研究对象(特定语言或语言变体)的特征。3)以电子形式保存,可自动赋码和标注便于自动检索、查询和统计,支持语言描述和实证研究。
(2) 语料库的发展历程
自20世纪中叶以来,语料库的发展迅速,只要包含四个阶段:手工编制时期、计算机辅助编制时期、平行语料库时期和大规模网络语料库时期。
手工编制时期(20世纪50年代-60年代)
平行语料库时期(20世纪90年代)
随着全球化的推进,人们对跨语言信息处理的需求不断增加。因此,平行语料库应运而生。平行语料库是由两种或多种语言的相互对应的文本组成的,可以用于机器翻译、跨语言信息检索等研究。这一阶段的代表作品是欧洲议会语料库(European Parliament Corpus),它涵盖了欧洲议会的多语种记录,为多语言研究提供了丰富的数据。
大规模网络语料库时期(21世纪初至今)
在这一阶段,网络文本已成为构建语料库的主要数据来源。研究人员可以利用网络爬虫等技术自动获取大量的文本数据,并利用自然语言处理技术对这些数据进行清洗、整理和分析。这种方式不仅大大提高了语料库的编制效率,还使得语料库能够更好地反映语言的实际使用情况。
25. 什么是语料技术?
语料技术,即语料库技术,是指针对自然语言文本或语音数据的收集、整理、标注、存储、检索和分析等一系列技术方法。语料技术主要应用于计算语言学、自然语言处理、机器翻译等领域,其核心目标是通过对大量真实语言数据的处理和分析,揭示自然语言的规律和特点,为各种语言学研究和实际应用提供依据。语料技术主要包括以下几个方面:
-
词典编纂:基于语料库的词汇研究可以为词典编纂提供丰富的素材,提高词典的质量和实用性。 -
机器翻译:平行语料库是训练统计机器翻译模型和神经机器翻译模型的重要数据源,有助于提高翻译质量。 -
语言教学:语料库可以为外语教学提供大量真实的语言材料,有助于提高学生的语言水平和实际应用能力。 -
文本挖掘和情感分析:通过对语料库进行文本挖掘和情感分析,可以挖掘出文本中的隐含信息和趋势,为各种决策提供支持。
总结来说,语料技术是一种研究和处理自然语言数据的技术体系,涵盖了从数据收集、整理、标注到存储、检索和分析等多个环节。随着互联网和人工智能技术的快速发展,语料技术在计算语言学、自然语言处理等领域发挥着越来越重要的作用,为语言学研究和各种实际应用提供了强大的支持。
26. 常见的语料库有哪些?
-
英语: 布朗语料库(Brown Corpus):http://clu.uni.no/icame/brown/bcm.html 英国国家语料库(BNC):https://www.english-corpora.org/bnc/ 现代英语语料库(COCA):https://www.english-corpora.org/coca/ -
多语言: 欧洲议会语料库:https://ec.europa.eu/jrc/en/language-technologies/dcep 维基百科语料库:https://dumps.wikimedia.org/
-
法律: 英国法律语料库:https://www.cardiff.ac.uk/research/explore/research-units/corpus-laws -
医学: PubMed生物医学文献数据):https://pubmed.ncbi.nlm.nih.gov/ -
计算机科学: arXiv科学论文预印本数据库:https://arxiv.org/
-
平行语料库: OpenSubtitles电影字幕平行语料库:http://opus.nlpl.eu/OpenSubtitles.php -
句法标注语料库: 面向对象的接口语料库:https://catalog.ldc.upenn.edu/LDC99T42 -
文学语料库: 古腾堡语料库:https://www.gutenberg.org/ -
社交媒体语料库: 推特语料库:https://developer.twitter.com/
(2) 国内大学语料库
27. 什么是光学字符识别技术(OCR)?
光学字符识别 (英语:Optical Character Recognition) 是指将文本图像转换为机器可读文本格式的流程。例如,如果扫描一个表单或收据,则计算机会将扫描保存为图像文件。我们无法使用文本编辑器对图像文件中的文字进行编辑、搜索或计数。但是,可以使用 OCR 将图像转换为文本文档并将内容存储为文本数据。
OCR技术就是利用光学技术和计算机技术把印在或写在纸上的文字读取出来,并转换成一种计算机能够接受、人又可以理解的格式。具体操作过程大致为电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
文字识别是计算机视觉研究领域的分支之一,作为一个较成熟的课题,商业中已经有很多落地项目。比如汉王OCR,百度OCR,阿里OCR等等。在我们日常生活中,OCR技术确实也在改变着我们的生活:比如一个手机APP就能帮忙扫描名片、身份证,并识别出里面的信息;汽车进入停车场、收费站都不需要人工登记了,都是用车牌识别技术;我们看书时看到不懂的题,拿个手机一扫,APP就能在网上帮你找到这题的答案。
如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题,ICR(Intelligent Character Recognition)的名词也因此而产生。衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。
28. 什么是语音识别技术?
语音识别技术能够将口语(音频信号)转换为通常用作命令的书面文本。语音识别(speech recognition)技术,也被称为自动语音识别(英语:Automatic Speech Recognition, ASR)、电脑语音识别(英语:Computer Speech Recognition)或是语音转文本识别(英语:Speech To Text, STT),其目标是以电脑自动将人类的语音内容转换为相应的文字。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。
语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,例如语音到语音的翻译。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。
当今最先进的软件可以准确地处理各种语言方言和口音。例如, ASR 通常出现在面向用户的应用程序中,如虚拟代理、实时字幕和临床笔记。准确的语音转录对于这些用例至关重要。语音 AI 领域的开发者也使用 替代术语 描述语音识别,如 ASR 、语音到文本( STT )和语音识别。ASR 是系统的关键组成部分,语音 AI,这是一套旨在帮助人类通过语音与计算机对话的技术。
语音识别的基本流程:用户发出指令后,mic收集音频,完成声音到波形图的转换,通过波形图与人类发音的波形图做对比,可以识别出说的具体音节,通过音节,组合成词、句子,再结合大数据分析出说的最匹配的话,然后NLU模块开始工作,分析出这句话的意图(intent)、域(Domain)等各种信息。分析出意图后开始对话管理DM(Dialog Manager),通过后台数据查询应该给用户什么反馈。然后交给NLG模块,通过查出来的信息,生成自然语言,最后通过TTS模块,将文字转回成波形图并播放声音。
29. 常见的语音识别产品有哪些?
微软的Speech API(简称为SAPI)是微软推出的包含语音识别(SR)和语音合成(SS)引擎的应用编程接口(API),在Windows下应用 广泛。目前,微软已发布了多个SAPI版本(最新的是SAPI 5.4版),这些版本要么作为于Speech SDK开发包发布,要么直接被包含在windows 操作系统中发布。SAPI支持多种语言的识别和朗读,包括英文、中文、日文等。SAPI的版本分为两个家族,1-4为一个家族,这四个版本彼此 相似,只是稍微添加了一些新的功能;第二个家族是SAPI5,这个系列的版本是全新的,与前四个版本截然不同。
最早的SAPI 1.0于1995年发布,支持Windows 95和Windows NT 3.51。这个版本的SAPI包含比较初级的直接语音识别和直接语音合成的API, 应用程序可以直接控制识别或合成引擎,并简化更高层次的语音命令和语音通话的API。SAPI3.0于97年发布,它添加了听写语音识别(非连续 语音识别)和一些应用程序实例。98年微软发布了SAPI4.0,这个版本不仅包含了核心的COM API,用C++类封装,使得用C++来编程更容易, 而且还有ActiveX控件,这个控件可以再VB中拖放。这个版本的SS引擎随Windows2000一起发布,而SR引擎和SS引擎又一起以SDK的形式发布。
SAPI5.0 于2000年发布,新的版本将严格将应用与引擎分离的理念体现得更为充分,所有的调用都是通过动态调用sapi.dll来实现的, 这样做的目的是使得API更为引擎独立化,防止应用依赖于某个具有特定特征的引擎,这种改变也意图通过将一些配置和初始化的代码放 到运行时来使得应用程序的开发更为容易。
2).IBM viaVoice
IBM是较早开始语音识别方面的研究的机构之一,早在20世纪50年代末期,IBM就开始了语音识别的研究,计算机被设计用来检测特定的语言 模式并得出声音和它对应的文字之间的统计相关性。在1964年的世界博览会上,IBM向世人展示了数字语音识别的“shoe box recognizer”。 1984年,IBM发布的语音识别系统在5000个词汇量级上达到了95%的识别率。
1992年,IBM引入了它的第一个听写系统,称为“IBM Speech Server Series (ISSS)”。1996年发布了新版的听写系统,成为“VoiceType3.0”, 这是viaVoice的原型,这个版本的语音识别系统不需要训练,可以实现孤立单词的听写和连续命令的识别。VoiceType3.0支持Windows95系统, 并被集成到了OS/2 WARP系统之中。与此同时,IBM还发布了世界上首个连续听写系统“MedSpeak Radiology”。最后,IBM及时的在假日购物季节 发布了大众化的实用的“VoiceType Simply Speaking”系统,它是世界上首个消费版的听写产品(the world’s first consumer dictation product).
1999年,IBM发布了VoiceType的一个免费版。2003年,IBM授权ScanSoft公司拥有基于ViaVoice的桌面产品的全球独家经销权,而ScanSoft公司 拥有颇具竞争力的产品“Dragon NaturallySpeaking”。两年后,ScanSoft与Nuance合并,并宣布公司正式更名为Nuance Communications,Inc。 现在很难找到IBM viaVoice SDK的下载地址了,它已淡出人们的视线,取而代之的是Nuance。
3)Nuance
Nuance Voice Platform(NVP)是Nuance公司推出的语音互联网平台。Nuance公司的NVP平台由三个功能块组成:Nuance Conversation Server 对话服务器,Nuance Application Environment (NAE)应用环境及Nuance Management Station管理站。Nuance Conversation Server对话服务 器包括了与Nuance语音识别模块集成在一起的VoiceXML解释器,文语转换器(TTS)以及声纹鉴别软件。NAE应用环境包括绘图式的开发工具, 使得语音应用的设计变得和应用框架的设计一样便利。Nuance Management Station管理站提供了非常强大的系统管理和分析能力,它们是为了 满足语音服务的独特需要而设计的。
4)科大讯飞——讯飞语音
提到科大讯飞,大家都不陌生,其全称是“安徽科大讯飞信息科技股份有限公司”,它的前身是安徽中科大讯飞信息科技有限公司,成立于99 年12月,07年变更为安徽科大讯飞信息科技股份有限公司,现在是一家专业从事智能语音及语音技术研究、软件及芯片产品开发、语音信息服务 的企业,在中国语音技术领域可谓独占鳌头,在世界范围内也具有相当的影响力。
科大讯飞作为中国最大的智能语音技术提供商,在智能语音技术领域有着长期的研究积累,并在中文语音合成、语音识别、口语评测等多项 技术上拥有国际领先的成果。03年,科大讯飞获迄今中国语音产业唯一的“国家科技进步奖(二等)”,05年获中国信息产业自主创新最高荣誉 “信息产业重大技术发明奖”。06年至11年,连续六届英文语音合成国际大赛(Blizzard Challenge)荣获第一名。08年获国际说话人识别评测 大赛(美国国家标准技术研究院—NIST 2008)桂冠,09年获得国际语种识别评测大赛(NIST 2009)高难度混淆方言测试指标冠军、通用测试 指标亚军。
科大讯飞提供语音识别、语音合成、声纹识别等全方位的语音交互平台。拥有自主知识产权的智能语音技术,科大讯飞已推出从大型电信级 应用到小型嵌入式应用,从电信、金融等行业到企业和家庭用户,从PC到手机到MP3/MP4/PMP和玩具,能够满足不同应用环境的多种产品,科大 讯飞占有中文语音技术市场60%以上市场份额,语音合成产品市场份额达到70%以上
30. 什么是众包翻译?
众包翻译是指采用互联网、本地化、内容管理系统等技术,使不同地域的多名译者(或者是志愿者)分工协作,共同完成某项翻译任务的工作模式。其中,众包指的是一个公司或机构把过去由员工执行的工作任务,以自由自愿的形式外包给非特定的(而且通常是大型的)大众志愿者的做法。
-
众包翻译模式与翻译协作模式之间有何区别?
(3)翻译规范方面,翻译协作模式下的译员常常会受到原文选择、风格指南、质量控制、审核制度等因素的限制;而众包翻译模式下的译者受到的约束较少,对于质量的把控较为自由;他们通常既是翻译产品的生产者,也是其消费者和使用者,其翻译过程及结果主要取决于用户的需求,体现了“用户创造内容”的特征。
-
众包翻译有何利弊?
目前的翻译任务中90%以上的集中在5个领域:社交、新闻/信息、娱乐(影视字幕组)、政府及非营利组织、文化及学习。
31. 常见的众包翻译平台有哪些?
32. 什么是字幕翻译?
在屏幕上使用文字来加强观众对故事的理解,这种想法从电影早期的无声电影中就已经出现了。事实上,在1903年由埃德温-S-波特执导的电影《汤姆叔叔的小屋》中可以找到第一个在屏幕上使用书面语言的例子。电影制作者加入了所谓的 “中间字幕”:在动作场面之间出现的文字。
随着时间的推移,这逐渐演变为更接近于我们今天所认识的字幕,电影制作人意识到,这些文字可以被翻译成其他语言,使他们的作品能够被全世界的观众所接受。
33. 字幕翻译的相关工具有哪些?
二是带字幕翻译功能的工具,如 Open Subtitle Translator、SRT Translator、Subtrans、人人译视界、字幕通、Arctime 、网易见外等。
其中带字幕翻译功能的工具通常融合了人工智能技术。例如,网易见外集成了神经网络机器翻译、语音识别转写文字、语音自动解析并切分时间轴等三大技术;人人译世界集翻译协作管理、AI辅助、字幕编辑、字幕格式转换、字幕内嵌、视频后期等多种功能于一体,大大提高了工作效率。
1)Aegisub
-
简单直观而又功能强大的字幕编辑界面
-
支持各种格式和字符集
-
强大的视频模式
-
可视化排版工具
-
直观且可定制的音频打轴模式
-
可以完全脚本化的自动化模版
用户可以通过使用Lua语言来编写宏或导出滤镜来扩展程序的功能。Aegisub本身也内置了一些现成的脚本,能更快地生成属于用户自己的卡拉OK字幕效果。
2)人人译世界
-
AI听译
-
机器翻译
-
智能识别画面字幕
-
智能配音
-
视频后期
-
多终端在线协作
34. 什么是本地化桌面排版(DTP)?
本地化桌面排版(Desktop Publishing,DTP)指的是根据不同语言的特点(如阿拉伯语、希伯来语、乌尔都语等是双向语言,越南语排版须特别注意音调符号,日语排版不允许促音、拗音在行首,以及常见本地化语言的文本扩展比例等)、专业排版规则(如环境配置、模板设置、复合字体设置等)和项目指南等,将原始语言文件排版为多语言文件的排版工作。在本地化排版工作中,排版人员应充分考虑各语言的特点、字符编码、排版规范和专业要求,保持目标文件与原文件在版式、设计风格等方面一致性。在典型的翻译项目中,桌面排版往往是最后一个阶段,是给本地化材料赋予最终外观和风格的一个环节。页面布局、图像、颜色和标点形状都会影响用户对内容的准确理解及对产品或品牌的印象。
在本地化项目中,桌面排版主要需要解决文件在符号、编码、版式和排版规则等方面的问题,例如:
35. 本地化桌面排版涉及哪些工具?
实现本地化桌面排版需要依赖某些特定的软件。例如:
-
排版工具:FrameMaker、InDesign、QuarkxPress等; -
图形处理工具:Illustrator、Photoshop等; -
字体管理工具:Extensis Suitcase等; -
抓屏工具:HyperSnap、Snaglt等; -
图像格式转换工具:Konvertor、XnConvert等; -
文字处理工具:Microsoft Word等。
36. 什么是翻译管理系统(TMS)?
美国著名语言行业调查机构卡门森斯(Common Sense Advisory)将翻译管理系统(Translation Management System,TMS)的定义概括为:“翻译管理系统将企业职能部门、项目任务、工作流程和语言技术整合于一体,以支持大规模的翻译活动,并可有效协调沟通环节上组织内外部、组织之间各方参与者的工作”(Sargent, DePalma, 2009:1)。
与一般的项目管理软件或Excel电子表格不同,TMSs是专门为翻译和本地化项目构建的,为用户提供高效处理翻译项目所需的一切。
运用翻译管理系统,项目经理可以有效进行语言处理、业务评估、流程管理、项目监管、人员管理、沟通管理等多种管理工作,例如:
37. 常见的翻译管理系统有哪些?
1)Smartcat
-
无限存储:账户中的项目或翻译记忆的数量无限制,可轻松转移项目。 -
无限用户:可邀请任意数量的用户加入账户,这项功能适用于公司内部的本地化团队。 -
实时协作:帐户内的所有用户都可以实时处理同一文档,不仅提高校对效率,而且便于项目外包。 -
进度跟踪:允许用户跟踪项目,包括截止日期、项目状态、进度、分配的人员等。用户可通过该功能预计项目的工作量,及时跟进该项目的进程。 -
用语一致性:词汇表(Glossaries)和翻译记忆库(Translation Memories)可以实现整个文本中语调和术语的一致性。
-
私有化部署:可部署在企业内部局域网上,保障企业信息安全。 -
自动定期备份:所有数据随时备份和恢复,保护翻译数据安全。 -
高水平自动化:灵活设置自动化流程,包括调用外部脚本和外部系统。 -
支持多种文档:几乎支持所有可编辑文本,解析各种嵌套、标记和多语言文档。
-
使用机器翻译和AI降低翻译成本(为每项翻译工作匹配最佳的翻译引擎,AI过滤不译的内容)。 -
管理多个翻译供应商。 -
具备功能齐全的CAT工具。 -
支持30多种集成软件,以实现定制的本地化体验。
38. 什么是质量保证(QA)?
1)是什么
39. 常见的翻译质量保证工具有哪些?
从功能上看,翻译质量保证或控制工具大致可分为两类:
1)第一类是 CAT 工具中的 QA 模块。国内外主要的 CAT 工具均有内置的 QA 模块,如国外的 SDL Trados Studio、Déjà Vu、Wordfast、memoQ,以及国内的雅信 CAT、传神TCAT、朗瑞 CAT、雪人 CAT 等。
SDL Trados Studio:Trados 是桌面级计算机辅助翻译软件,基于翻译记忆库和术语库技术,为快速创建、编辑和审校高质量翻译提供了一套集成的工具。这是翻译行业最常用的一款 CAT 软件,支持超过 100 种语言的翻译和本地化。TRADOS,这一名称取自三个英语单词。它们分别是:Translation、Documentation和Software。Trados版本比较多,包括Trados Studio 2009/2011/2014/2015/2019/2019/2021,各个版本操作方法基本相同。
Déjà Vu:计算机辅助翻译软件市场的翘楚,独立翻译解析器平台的提出者,目前Trados、WordfastPro以及memoQ均效仿其理念,不再作为Word的控件出现,Déjà Vu-迪佳悟是该软件模式的发轫者。Déjà Vu计算机辅助翻译系统服务器端高度集成翻译项目管理所需要的术语库集中管理、翻译记忆库集中管理、角色管理、用户管理、客户管理、权限管理、浮动授权管理、语料资源查询、项目任务分派与进度跟进及项目任务查询等功能。Déjà Vu是Atril Language Engineering公司所开发的翻译工具,也是CAT软件中最早采用如今流行的“翻译表格”界面,并采用高度集成的翻译界面的软件之一。Déjà Vu 是Atril公司于1993年发布的首款基于Windows的计算机辅助翻译系统。
Wordfast:支持多种语言的翻译和本地化。它可以与 Microsoft Word 集成,提供一系列高效的翻译功能。Wordfast 是第一个与平台无关的翻译记忆软件,世界第二大应用广泛的翻译软件。此版本不同于以前的任何版本,以前的版本其实是一套Word的宏命令,用户使用Wordfast进行翻译时工作的界面是Word窗口,而6.0版是独立的软件,直接按提示点击安装就可以了。
memoQ:memoQ是一款由匈牙利的Kilgray公司开发的可以在Microsoft Windows上运行的CAT软件。MemoQ可将翻译编辑功能、资源管理功能、翻译记忆、术语库等功能集成到一个系统中,以便用户方便地在这些功能中切换。Glossary和TM都是线上储存,文件也是可以线上交付,无论是翻译还是项目管理都十分便捷。另外,MemoQ具有长字符串相关搜索功能,同时可兼容SDL Trados、STAR Transit及其他XLIFF提供的翻译文件,便于译员和其他CAT使用者共享翻译成果。此外,MemoQ也是集成外部翻译记忆库、术语库最全的一款翻译辅助软件。凭借外部海量语言资产的接入,极大地提高了辅助翻译的效率,成为计算机辅助翻译软件的新兴力量。
雅信 CAT:“雅信CAT”是专业辅助翻译平台《雅信CATS2.0》中的一个模块,是为专业翻译人员量身打造的辅助工具。它能够帮助译员优质、高效、轻松地完成翻译工作。它提倡让人和计算机进行优势互补,由译员把握翻译质量,计算机提供辅助,节省译员查字典和录入的时间,系统还具有自学功能,通过翻译记忆不断积累语料,降低劳动强度,避免重复翻译。
朗瑞 CAT:朗瑞cat翻译辅助软件是基于现代词典技术和翻译记忆(Translation Memory, TM)技术打造的一款实用翻译软件,软件可以方便用户快速对各类短句、词语或者文章进行翻译操作,拥有操作简单、翻译速度快以及翻译后的语句通顺等特点,并且还支持人机交互翻译。
雪人 CAT:雪人CAT(Snowman Computer Assisted Translation——缩写为:雪人CAT)是佛山市雪人计算机有限公司自行研发的计算机辅助翻译软件,是一种充分利用计算机的超强计算能力、记忆能力和人的创造能力相结合的人机互动的辅助翻译软件,由译员把握翻译质量,计算机提供辅助。
2)第二类是翻译技术开发商开发的专门用于保障翻译质量的工具,例如 ApSIC Xbench、Error Spy、Html QA、TMX Validator、QA Distiller 等。
ApSIC Xbench:这是一款翻译质量保证工具,主要功能包括拼写检查、检查漏译、检查译文不统一、利用术语库统一术语、支持自定义检查列表、支持批量QA等,同时配合SDL Trados、MemoQ等CAT工具使用的Xbench插件,使得翻译效率和准确率进一步提升。ApSIC Xbench有搜索和QA两项主要功能。就其强大的QA功能而言,XBench支持目前大部分CAT软件的双语文件格式,包括:XLIFF、TMX、TTXTransit、Wordfast TXML等,支持多达29种文档格式。其Check Ongoing Translation能对文件批量进行检查。ApSIC Xbench2.9为免费版,ApSIC Xbench 3.0为付费版。Xbench的界面直观、功能强大,支持大部分主流CAT工具,另外Xbench支持自定义QA功能,可以实现极其细致的检查功能。
ErrorSpy:ErrorSpy是D.O.G. GmbH开发的一款商业翻译QA软件,可辅助审校工作,自动检查译文,评估译文,生成评估报告和错误列表。QA项目有Terminology(术语)、Consistency(一致性)、Number(数字)、Completeness(完整性)、Tag(标签)、Acronym(首字母缩略词)、Typography(排版)和Missing translations(漏译)。ErrorSpy支持*.xlf、*.tmx、*.ttx、SDL Trados文件类型。ErrorSpy软件有30天免费试用期,对于译文QA具有相当价值,尤其是它的灵活自定义为使用者提供了很大方便,值得译员掌握使用。
TQAuditor:这是一款翻译质量监控系统,也用于保证翻译质量,但是和XBench有所不同。尤其是在执行的任务方面:它的设计目的不是发现译文的错误,而是帮助翻译人员分析编辑者的修改,并从错误中学习。TQAuditor可以比较双语文件的不同版本,并生成更正的报告。TQAuditor支持的文件格式包括:XLF and XLZ文件、Trados Studio SDLXLIFF文件、SDL Trados TagEditor TTX文件、TMX格式的翻译记忆文件、Memsource Editor MXLIFF文件、Wordfast TXML and TXLF文件、MemoQ XLIFF文件、ExcelXML格式的ChangeTracker文件、WordBeeXLIFF、XTM。
QA Distiller:QA Distiller是山形欧洲公司(Yamagata Europe)研发的QA软件,它能自动检测翻译及记忆库中的形式错误,并能快速、方便地修正。可查出的错误类型包括遗漏、不统一、格式问题及术语错误,也可批处理文件并支持语言独立设定。QA Distiller是市场上最全面、最昂贵的翻译工具之一,最便宜的个人版为249欧元。它的功能也十分强大,支持所有的语言,默认语言设置中有90多种语言。QA Distiller支持的文件格式有*.rtf、*.ttx、*.tmx、*.xliff、FrameMaker*.rtf(*.stf)。词典文件有*.tbx、QADistiller Dictionary(*.dict)。QA设置分成漏译(Omissions)、不一致(Inconsistencies)、格式(Formatting)、术语(Terminology)四个选项卡。
40. 什么是 DITA?
达尔文信息类型化体系结构(Darwin Information Typing Architecture),简称DITA,是一个基于XML的体系结构,用于发布技术信息。它最初由IBM公司开创,后由结构化信息标准化促进组织(OASIS)正式向公众推出。
DITA支持模块化的信息创建方法。信息由多个、单个或组合的主题(topic)构成,主题通常可分为三类:任务主题(Task),概念主题(Concept)和参考主题(Reference)。其中,任务主题不可或缺,概念主题和参考主题则辅助说明任务主题。这些主题通过Map组织起来形成文档。Map可被认为是文档目录结构,根据文档不同类型,有不同的章节划分方式。
41. 常见的技术写作工具有哪些?
技术文档写作工具可分为内容管理工具、写作和编辑工具(和发布输出工具)、排版工具三大类。
-
内容管理工具:SDL Knowledge Center、PTC Windchill等。 -
写作和编辑工具:PTC Arbortext Editor、JustSystems Xmetal Editor、Oxygen XML Editor等,上述三个工具都有配套的发布输出工具。 -
排版工具:FrameMaker、InDesign等。
42. 什么是辅助写作(CAW)?
辅助写作(Computer-Assisted Writing,CAW)指的是利用计算机工具,根据一定的语言规则、文体规则对文本进行检查、勘误。辅助写作工具的主要功能在于检查文本的拼写、标点符号、大小写、语法、搭配等语言与格式问题。除了检查错误,辅助写作工具还能够为写作者提供用词建议,改善文章可读性和质量。在翻译中,利用辅助写作工具有助于帮助译者提高译文质量。
目前,国外的辅助写作工具主要有 WhiteSmoke、StyleWriter、Grammarly、GrammarAnywhere、Intellicomplete、Bullfighter、Triivii、Microsoft Word 校对模块等等;国内的辅助写作工具主要有:写匠、笔神、批改网、1Checker 等。不同的辅助写作工具也具有自身的特色功能。例如,Grammarly 可按文章类型(如常用、商务、学术、科技等)进行纠错,并对文章进行网上相似度检索;WhiteSmoke 则提供高效的全文翻译,附带的模板也能辅助快速写作。
WhiteSmoke:一款英语写作辅助软件,该软件可实现在线检测所写英文单词、语法、标点等的错误,并将正确单词及语法及时给予纠正,该软件操作简单、功能强大,拥有强大的自然语言处理技术。
StyleWriter:一个提供给英语母语的人使用的,提高文章可读性的建议性软件。这是一个非常好用的英文文字处理工具,它的功能非常强大,可以对文章的进行检查和修改,可以轻松识别文章的字词错误并且对文字进行润色处理,需要的都可以处理。
Grammarly:一款在线语法纠正和校对工具,支持Windows、Mac、iOS和Android等多个平台。它能够检查单词拼写、纠正标点符号、修正语法错误、调整语气以及给出风格建议等;对学术写作来说,Grammarly还可以帮助查重。Grammarly有免费版、付费版和商务版。
GrammarAnywhere:一个拼写和语法检查工具,可以支持所有的应用程序。它支持在内容比较、填写表格、 文字搜索、Blogs 写作等情况下使用,兼容Yahoo! Messenger、ICQ、Skype Chat等 聊天工具,可以使用 记事本、 写字板和Outlook Express等工具。
Intellicomplete:Intellicomplete 是一款独特的、全功能的工具软件,使文本的处理更自动化、更高效。 含有以下功能模块:自动学习并自动补足任何MS Windows应用软件中处理的单词和句子; 自动扩展任何MS Windows应用软件中处理的速记以及医学缩略语;支持多个剪贴板的管理等功能。
Bullfighter:这款软件可用作微软Word和PowerPoint的插件,唯一不方便的就是它只能在Windows操作系统中运Bullfighter的目标是找到并且删除文章中那些晦涩难懂的部分。
Triivii:一款功能强大的英文输入软件,具备单词、词组自动拼写完成,改错,智能学习等功能。它能够帮助你显著提高英文输入的速度与准确度,使基于英文文本的工作更加轻松,非常适合科研工作者使用。
写匠:写匠(AIWriter)是一款基于人工智能与认知科学的中文写作辅助工具,开智团队研发。内置数百万条错误规则,可迅速检查各类文本错误。同时,写匠还融合古典风格、广告法写作规则,提供细致指导。
笔神:一款人工智能辅助写作软件。笔神可以基于你所写内容实时推送丰富素材,帮助你持续高效地写作。海量写作素材应有尽有,无论是写小说、做自媒体,还是写作文、发朋友圈。每三分钟自动保存一个备份,可建立自己的写作素材库,在写作过程中基于所写内容实时调用匹配素材内容,一个专属的写作外脑。极简的操作使你可以专注、流畅的深度写作;所有内容自动保存,并支持导出PDF或Word文档。功能全面,界面简单,具有高级的Markdown及标记功能,支持通用快捷操作。导出样式实时预览,让内容格式不再成为写作阻力。
批改网:一款智能批改英语作文在线服务系统, 是基于云计算的英语作文自动批改在线服务,2010年上线。
1Checker:一款英文自动检查纠错服务工具,除了可以提供英文写作技巧纠正语法错误和自动润稿修正外,还具备作文批改评分模式,存储常用错字、生字辞典,提供丰富的商用英文书信、英文作文范本等等资源。针对个人用户完全免费,提供在线版、桌面版、Mac版、Windows8版应用、word插件、写作模版,对于学习英语来说这样的软件非常实用,尤其是纠错功能,智能化的软件不可能百分百全部准确,但是使用度还是足够了。和 Grammarly 相比,1Checker 有着全中文的界面和语法建议,大大降低了操作难度和理解障碍。你可以很清楚的了解你的文章中到底有哪些语法错误,并且很容易看懂解释,这样可以让你更容易记住这些问题,避免以后出现同样的错误。 同时 1Checker 还提供了查词和翻译功能,你可以直接在应用内查询词典或者调用 Google 翻译和 Bing 翻译,不需要在写作过程中在各种应用之间切换,大大提高了操作效率。1Checker 不支持实时检查,需要在你完成输入之后点击“检查”,完成语法检查之后,它会列出一份文章的分析报告,告诉你错误点比例,用词水平,句子结构和用词分布情况,对于那些在练习英文写作的人来说,这个功能可以让你对你目前的写作水平有一个大概的了解。
43. 本地化行业涉及哪些机构和角色?
-
宏观层面——机构
-
-
本地化服务购买方(客户方):将服务外包给供应商。 -
本地化服务供应商:提供本地化服务。
-
-
莱博智(LionBridge):提供翻译和本地化解决方案,可以帮助全球的公司满足其客户在各种交付内容(包括软件、网站和营销材料、产品和文档、多媒体以及电子学习和培训)方面的语言和技术要求。
-
-
本地化技术公司:为整个行业提供技术性的产品和解决方案。
-
-
思迪(SDL):Trados的母公司,提供全球数字内容管理与国际信赖的语言翻译软件和服务。
-
-
本地化协会:对整个行业具有引领、指导和规范的作用。
-
-
LISA – The Localization Industry Standards Association(本地化行业标准协会) -
GALA – The Globalization and Localization Association(全球化与本地化协会) -
ATA – American Translators Association(美国翻译协会) -
TAC – Translation Association of China(中国翻译协会) -
FIT – International Federation of Translators(国际译联)
-
本地化人才教育与培养机构:如高校和培训公司等,为行业提供人才储备。 -
本地化研究与咨询机构:为业界提供研究与咨询服务。
-
微观层面——角色
-
-
本地化工程团队
-
-
实施本地化工程流程,指导本地化项目组成员理解和遵循工程流程。 -
协同本地化项目经理和其他职能部门经理,计划和调整本地化工程流程。 -
监控提交的工程处理结果的质量以及项目组成员的工作业绩。 -
监控本地化工程质量保证(QA)的实施。 -
提供本地化工程的实施反馈,以便改进全球工程流程。 -
应用适当的工程度量手段,管理本地化工程的效率和效力。 -
工程部经理 -
项目经理:协同工程部经理和本地化工程师,计划和调整本地化工程流程。 -
本地化工程师:确保遵循本地化工程流程,进行本地化工程处理。
-
-
测试团队
-
-
深刻理解测试流程,负责实施本地化测试流程。 -
与测试主管协商,审视和调整特定客户/项目的测试流程。 -
应用标准度量方法,监控本地化测试质量、效率和有效性,必要时采取正确的改进措施。 -
通过部门或项目审核,监控本地化测试流程,必要时采取正确的改进措施。 -
向软件开发商(客户)提供本地化测试流程的反馈信息。 -
深刻理解测试流程,向测试工程师安排测试任务,解决测试过程的问题或向测试项目经理反映测试存在的问题。 -
应用软件供应商和本地化服务商确认的测试度量方法,确保测试的质量、效率和有效性。 -
与项目经理协商,审查和调整特定客户/项目的测试流程。
-
验证本地化测试报告中的缺陷。 -
及时地正确处理所报告的缺陷,包括修正缺陷或将缺陷分配给合适的工程师处理。 -
理解测试流程、测试工具、测试方法。 -
根据测试文档和测试用例,测试本地化软件。 -
报告测试发现的缺陷,提交测试报告。 -
检验修正的缺陷,关闭已经修正的缺陷,重新打开没有真正修正的缺陷。
-
测试工程师 -
缺陷修正工程师 -
测试主管 -
项目经理
-
-
项目管理团队
-
-
项目经理:计划和管理本地化项目的各阶段。
44. 本地化的内容/需要解决哪些问题?
许多人会认为本地化与翻译相同或类似,只是一个语言转换的过程。在基于文本的产品的本地化过程中,翻译的确发挥着重要的作用,是基础,但实际上,本地化的内容和需要解决的问题比翻译要广泛复杂得多。本地化工业标准协会(LISA)将本地化定义为“考虑不同市场差异,修改产品或服务的过程(the process of modifying products or services to account for differences in distinct markets)”。
参考:《本地化入门手册》,The Localization Industry Primer
45. 什么是本地化工程?
本地化工程(英文:Localization Engineering)主要指针对产品的开发环境和信息内容进行分析、内容抽取、格式转换,然后再将已翻译的内容再次配置到产品开发环境中,从而生成本地化产品的一系列技术工作。
其主要工作内容包括:资源抽取与工作量统计、格式转换与标记处理、生成翻译文件包、预翻译、编译本地化产品等。本地化工程涉及的技术主要有软件工程技术、翻译技术和质量保证技术等。
本地化工程的处理内容较为琐碎,处理过程也较为繁琐,需要理解很多概念和术语,还要运用多种软件工具。软件和联机帮助文档是本地化工程的主要处理内容。软件本地化工程的任务是为软件翻译提供正确的文档格式和翻译内容,并对翻译后的文档进行后续处理,其目标是编译和创建本地化软件版本。联机帮助文档本地化工程的工作流程包括翻译前的预处理和翻译后的后续处理,其目标则是编译和创建本地化联机帮助文档。
此外,多媒体电子学习课件和图像等文件也属于本地化工程的处理范围,且正成为一个独立的工程类型。
46. 常见的本地化工程工具有哪些?
本地化工程需要处理的文件格式非常多,内容很复杂,根据项目的不同类型(网站、游戏、软件等),除了通用的办公软件,还需要分别运用多种软件工具才能完成,包括文本标记、格式转换、文本提取导入、文件检查、编译、多媒体编辑等工具,具体如下:
参考:《本地化与翻译导论》
47. 常见的本地化缺陷有哪些?
本地化缺陷可以归纳为以下三种类型:
本地化缺陷即由于本地化过程引起的缺陷,只存在于本地化软件中,包括用户界面缺陷和语言缺陷。用户界面缺陷特指本地化软件中视觉范围内的界面错误。如:控件重叠、文字截断、布局不一致、控件不对齐;语言缺陷包括漏译、过译、误译等,属于翻译过程中出现的问题,如:翻译缺陷、控件大小和位置的布局缺陷。对于这类缺陷,需要与语言部门沟通解决。
48. 什么是敏捷本地化?
传统软件开发模式瀑布模型(waterfall model),将本地化放在软件开发和测试完成后,是产品开发周期的末端。在这种模式种,本地化团队以一个稳定的源语言软件为基础,进行软件用户界面、联机帮助和用户手册等内容和功能的本地化。
但在敏捷软件开发广泛应用的今天,软件开发项目普遍呈现出迭代、时效性强等特点,从规划协调、成本控制、交付时效、沟通协作、质量控制和响应速度等方面对本地化提出了更高的要求。敏捷本地化(agile localization)模式可以满足这样的要求,通常与产品开发进程紧密结合、同步进行,实现共时高效推进。
敏捷本地化有以下主要实施策略:
(5)本地化服务的服务敏捷化:软件厂商经常将本地化外包给本地化服务商(LSP),敏捷软件本地化的实施要求本地化服务商也要服务敏捷化。
参考:崔启亮,李晓晴.敏捷软件本地化:特征、策略与实践[J].外语与翻译,2020,27(01):26-31.DOI:10.19502/j.cnki.2095-9648.2020.01.005.
感谢分享🎈