随着翻译技术和语言服务行业的快速发展,翻译技术的学习与应用变得愈发重要。那么,翻译技术究竟涵盖哪些内容?在人工智能时代,学习翻译技术又能带来哪些改变?本期为大家推荐《翻译技术100问》。
作为翻译技术领域的重要指导书籍,本书由王华树教授等专家编撰,通过丰富的案例、图表和理论分析,系统地探讨了从语言服务行业基础知识到高级实践操作的全流程。书中不仅深入解析了搜索技巧、文档处理、翻译管理系统的应用,还通过本地化案例帮助读者掌握翻译技术的核心要领,在理论与实践的结合中展现翻译技术的实际价值,为应对人工智能时代的翻译挑战提供了坚实的支持。
#翻译 #翻译技术 #机器翻译 #CAT工具 #本地化 #语言服务
书名:《翻译技术100问》
作者:王华树、陈涅奥、叶梦轩
出版社:科学出版社
出版年份:2020
ISBN:978-7-03-064440-4
页数:279
语言:中文
类别:翻译技术
《翻译技术100问》是由行业和高校翻译技术专家共同编写的一本以解决问题为导向、以项目案例为驱动、兼顾理论与实践的翻译技术著作,旨在强化人工智能时代译者的技术思维,促进语言服务人才技术能力的全面提升,涵盖计算机辅助翻译技术、翻译与搜索技术、机器翻译与译后编辑、翻译项目管理技术、术语管理技术、本地化工程技术、字幕翻译技术等翻译实践中的常见技术。
全书分为三大部分:“基础篇”、“进阶篇”和 “高级篇”,共计100个问题。“基础篇” 共50个问题,系统了介绍语言服务、翻译技术、本地化、技术写作等领域的基本概念,方便读者快速查阅并构建知识体系;“进阶篇” 共35个问题,为译者提供翻译实践中常见技术问题的解决方案,例如,如何使用高级搜索语法、如何对复杂文档进行译前译后处理、如何使用人机交互翻译技术等;“高级篇” 共15个问题,主要解决职业译者和本地化翻译工程师常见的技术问题,例如,多人翻译协作、翻译管理系统、字幕翻译、网站本地化、App本地化等。该书附录提供了中英对照术语表以及机器翻译、计算机辅助翻译、术语和语料库、正则表达式、翻译搜索等相关实用资料,具有较高的参考价值。
1. 在翻译技术学习初级阶段,译者应了解语言服务领域的基本概念。
学习翻译技术应以具有良好的理论基础为前提,译者应了解包括语言服务、翻译技术、技术写作、本地化等在内的概念。具体而言,语言服务模块包括语言服务的定义、产业链、标准规范和发展趋势以及新时代语言服务从业人员所需要具备的能力;翻译技术模块包括翻译技术、计算机辅助翻译、机器翻译、译后编辑等宏观视角的基本概念以及翻译记忆技术、术语管理技术、语料技术、光学字符识别技术、语音识别技术、质量保证技术、字幕翻译技术、桌面排版等具体技术及概念;技术写作模块包括技术写作的定义和范畴、技术写作的实践原则、技术文档的特点,以及技术写作与学术写作的区别等;本地化模块包括GILT(全球化、国际化、本地化、翻译)几个概念的定义与联系,本地化工程、本地化测试以及敏捷本地化模式等概念。
2. 在翻译技术学习进阶阶段,译者应了解翻译实践中常见的技术问题及可行的解决方案。
学习翻译技术的进阶阶段应了解包括搜索资源与技巧、常见文档的处理、常见的CAT实践问题、翻译辅助工具与技术等翻译实践中常见的技术问题及可行的解决方案。具体而言,搜索资源与技巧模块包含翻译实践中常见的搜索资源,以及如何在搜索引擎中使用搜索技巧;常见文档的处理模块包括PDF文档在翻译实践中的译前处理和译后处理方法,例如拆分合并、格式转换、文字提取等;常见的CAT实践问题模块包括CAT翻译项目中的字数统计、项目去重、记忆库和术语库管理、预翻译、机器翻译和译后编辑、导出审校文档、翻译质量保证、文档拆分与合并、标记处理等问题的处理方法;翻译辅助工具与技术模块涉及宏、正则表达式、文档管理工具等翻译辅助技术的实践应用。
3. 在翻译技术学习高级阶段,译者应了解翻译实践中常见的高层次技术问题及可行的解决方案。
学习翻译技术的高级阶段应了解包括翻译管理系统、CAT工具的文件解析规则、字幕翻译工具、本地化案例实战等在内的高层次技术问题及解决方案。具体而言,翻译管理系统模块包括使用在线TMS进行翻译项目管理与多人翻译协作的方法;CAT工具的文件解析规则模块包括CAT工具中新建文件解析规则,提取文件可译元素的方法;字幕翻译工具模块包括使用一体化工具来完成字幕翻译工作的方法,涵盖时间轴创建、视频内容转写、字幕译制和校对等环节;本地化案例实战模块涵盖文档本地化、软件本地化、网站本地化和移动APP应用本地化项目的工程处理流程。
关键词1:语言服务行业(Language Service Industry)
语言服务行业是指提供跨语言、跨文化的信息转换服务及相关专业服务的现代服务业。这些服务包括技术研发、工具应用、知识管理和教育培训等。根据《中国语言服务业发展报告2012》,语言服务行业可分为核心层、相关层和支持层。其中,核心层是指主要从事语言间信息转换服务的企业或机构,如翻译公司、本地化公司、翻译软件开发公司和翻译培训机构;相关层是指部分业务依赖于语言信息转换的机构,包括国家外事、外宣、新闻出版部门,以及大型跨国企业和涉外行业(如旅游和对外贸易);支持层是指为语言服务提供支持的政府部门、行业协会、高等院校和研究机构等。
关键词2:翻译技术 (Translation Technology, TT)
翻译技术是一个动态发展且开放的技术体系,其内涵随着时代和技术的发展而发展。翻译技术涵盖一系列从业者用于辅助翻译、修订、校对等的工具,包括内容管理系统、写作技术、桌面排版、文字处理、翻译管理系统、翻译记忆工具和计算机辅助翻译、质量保证工具、修订工 具、本地化工具、机器翻译、术语管理系统、项目管理软件、语音–文本识别以及其他现存的和未来将要出现的多种翻译技术。
关键词3:机器翻译(Machine Translation, MT)
机器翻译是 “使用计算机系统将文本或语音从一种自然语言自动翻译为另一种语言”,因此,机器翻译也可称为“自动翻译”。近年来,随着机器学习、自然语言处理等领域的发展,机器翻译已经全面转向神经网络翻译时代,与人工智能技术的融合度越来越高。因此,机器翻译还可称为“人工智能翻译 ”。机器翻译的基本方法可以分为基于规则的机器翻译(Rule-based Machine Translation, RMT)、 基于统计的机器翻译(Statistical-based Machine Translation, SMT)、神经网络机器翻译(Neural Machine Translation,NMT)三种。其中,基于规则的机器翻译指对语言语句的词法、语法、语义和句法进行分析、判断和取舍,然后重新进行排列组合,生成对等意义的目标语言文字的机器翻译方法;基于统计的机器翻译是以大量的双语语料库为基础,对源语言和目标语言词汇的对应关系进行统计,然后根据统计规律输出译文的机器翻译方法;神经网络机器翻译是直接采用神经网络以端到端的方式进行翻译建模,将整个输入句子视作翻译的基本单元的机器翻译方法。
关键词4:计算机辅助翻译(Computer-Aided Translation/Computer-Assisted Translation, CAT)
计算机辅助翻译分为广义及狭义两个维度。广义的计算机辅助翻译相当于翻译技术,涵盖了译者在翻译过程中可能用到的提高翻译效率的信息技术。例如译前的编码处理、可译资源提取、字数统计、任务分析、术语提取等;译中的片段复用、搜索验证、术语识别、进度监控;译后的格式转换、模糊匹配、自动化质量保证、语言资产管理等;以及语料自动对齐、机器翻译、 语音输入、语音翻译等技术。狭义的计算机辅助翻译指利用翻译记忆来简化重复劳动的信息化技术。它利用计算机模拟人脑记忆功能的机制,将翻译过程中简单、重复性的记忆活动交给计算机来做,将译者从机械性的工作中解放出来,以全力关注翻译本身的问题。
关键词5:翻译记忆(Translation Memory, TM)
翻译记忆(Translation Memory,TM)指的是将原文和译文按照一一对应的词组、句对或段落存储起来的数据。存储翻译记忆的数据库可称为翻译记忆库。翻译记忆匹配技术是CAT 工具的核心技术。在翻译项目中,若项目句段和记忆库句段存在匹配项,CAT工具就可根据记忆库自动填充译文,从而节省翻译成本,提高翻译效率。翻译记忆的匹配方式通常包括模糊匹配、完全匹配和上下文匹配三种。
关键词6:术语管理(Terminology Management, TM)
术语管理是指对特定领域内的术语资源进行系统化的收集、描述、处理和维护,以满足特定目的的实践活动。其主要流程包括术语的收集、描述、处理、存储、编辑、呈现、搜索、维护和分享等。在翻译领域,术语管理涉及九个关键活动:需求分析、资源搜集、术语提取与选择、术语研究、修订、术语条目加工、质量保障、维护和发布。这些活动贯穿于翻译项目的每一个环节,确保翻译的一致性和质量。有效的术语管理对于企业的全球知识管理和信息共享至关重要,能够减少翻译成本,提升译文质量,避免术语混乱,从而促进顺畅沟通,并积累语言资产。它也是确保品牌形象一致性和规避法律风险的重要手段。
关键词7:语料库(Corpus)
语料库可以理解为规模较大、可供检索且具有一定结构的语言材料数据库,主要可用于翻译实践、语言研究、自然语言处理等领域。现代语料库的类型和分类标准十分复杂且多样,例如,按照语种数量分类,语料库可分为单语、双语和多语语料库;按照语料对应方式分类,双语或多语语料库可分为平行和可比语料库;按照翻译方向分类,平行语料库还可以进一步细分为单向和双向语料库等。除此之外,语料库还可根据用途、介质形式、语体、时间状态、语言使用程度、处理深度、选材方式、组库结构等在更多维度进行分类。
关键词8:技术写作(Technical Writing, TW)
技术写作是指创作旨在向用户传达如何正确、安全使用产品及其相关功能和特性的文档。这些文档通常以使用说明书、标签和铭牌等形式呈现,使用文字、标志、符号、图标等多种方式表达信息。技术写作的重要性体现在多个方面:高质量的技术文档是企业成功进入国际市场的必要条件,能够提升品牌形象,改善用户体验,降低法律风险和技术支持成本。此外,良好的技术文档还有助于减少本地化翻译成本。在实践中,技术写作需遵循四大原则:易用性、易于理解、易查找和易译性。一份优秀的技术文档应具备九大特点,包括基于任务、准确性、完整性、简洁性、分层性、一致性、条理性、可检索性和可视性。与学术写作不同,技术写作的目的在于帮助用户安全有效地使用产品,并提供必要的信息以实现特定任务。其读者群体非常特定,强调实用性和操作性。
关键词9:GILT
“GILT” 是语言服务行业中的一个重要概念,涵盖了全球化(Globalization, G11n)、国际化(Internationalization, I18n)、本地化(Localization, L10n)和翻译(Translation, T9n)。根据中国翻译协会2016年出版的《本地化入门手册》,这四个概念的定义如下:全球化:指使产品或服务进入全球市场的商务活动,为本地化提供技术、资金、管理等方面的决策支持;国际化:是一种设计和制造方式,使产品能够适应不同区域的要求,要求去除所有地域性语言和文化元素;本地化:在国际化过程中,为了提高市场竞争力,企业将产品的生产和销售按特定国家或地区的需求进行组织,以符合当地市场的要求;翻译:通常指在本地化过程中,将用户界面、手册等内容从一种语言转换为另一种语言的过程。这四个概念之间的关系可以总结为:国际化是本地化的技术基础;本地化是在国际化基础上实施的信息内容处理;两者共同构成全球化;而翻译则是本地化的一部分。
关键词10:本地化工程(Localization Engineering)
本地化工程主要指针对产品的开发环境和信息内容进 行分析、内容抽取、格式转换,然后再将已翻译的内容再次配置到产品开发环境中,从而生成本地化产品的一系列技术工作(王华树和刘明,2015:81)。其主要工作内容包括:资源抽取与工作量统计、格式转换与标记处理、生成翻译文件包、预翻译、编译本地化产品等。本地化工程涉及的技术主要有软件工程技术、翻译技术和质量保证技术等。
问题1:机器翻译与计算机辅助翻译有何区别?(基础篇)
计算机辅助翻译与机器翻译的区别在于,计算机辅助翻译是以人为主体进行的翻译活动,有别于全自动化的机器翻译。计算机辅助翻译的主体是译者,机器辅助译者完成翻译。而机器翻译通常是完全自动化的翻译,主体是机器。简而言之,计算机辅助翻译可以称为“机助人译”,而机器翻译可以称为“人助机译”。
问题2:质量保证与质量控制有何区别?(基础篇)
质量保证(Quality Assurance,QA)指在质量体系中实施并根据需要进行证实的全部有计划、有系统的活动。翻译质量保证主要检查译文的语言、格式层面。质量保证和质量控制(Quality Control,QC)这两个概念存在相似性,而又有着区别。两者相比,质量保证侧重于控制结果,而质量控制侧重于控制措施。质量控制指的是系统性地对项目、服务或其他交付物进行全方位监控和评估以确保交付物符合质量标准的方法和流程。
问题3:常见的搜索语法有哪些?如何应用这些搜索语法?(进阶篇)
常用的搜索语法主要包括:
英文引号(“”):使用双引号将关键词括起来,可以确保搜索结果完全匹配关键词,避免结果过于分散。
英文减号(-):在特定关键词前加上减号,可以排除包含该关键词的结果,从而过滤信息噪音,提高搜索质量。
site::在搜索关键词时加入“site:”及特定网址,可以在指定网站或域名类型中搜索相关内容。
filetype::在搜索关键词时加入“filetype:”及文件格式,可以查找特定格式的文件,例如PDF或DOC。
related::输入“related:”并加上特定网址,可以查找与该网站类似或相关的网站。
搜索语法的应用示例:
使用“site:”搜索:通过在Google中输入“site:edu.cn数控机床”,可以找到各类教育机构网站上关于数控机床的资料;使用“filetype:”搜索:输入“filetype:pdf数控机床”可以获取关于数控机床的PDF文档;组合搜索语法:结合“site:”与“filetype:”使用,如“site:edu.cnfiletype:pdf 数控机床”,可获取教育机构网站上的数控机床PDF文档;排除特定结果:使用“– site:edu.cn –filetype:pdf数控机床”可以找到非教育机构网站上的数控机床资料,且不包含PDF文档;查找相关网站:使用“related:”语法,如“related:corpus.bfsu.edu”,可以找到与BFSU语料库类似的资源。
问题4:如何进行语料回收?(进阶篇)
语料回收类似于语料获取,主要指从各种来源渠道收集整理语料,并根据需要将语料转换为可编辑、可加工、可人库的电子数据。在互联网时代的翻译活动中,语料回收方式主要包括以下几种:
手动抓取:从网页或文件中手动获取文本,得到语料。
自动抓取:利用网络爬虫技术如Python 脚本自动大批量获取语料。
格式转换:利用工具将不同格式源(如PDF)文件进行转换,得到可编辑文本。
OCR 识别:利用OCR技术将图片、纸质文件等转换为可编辑加工的文本。
购买资源:在语料网站上购买并下载语料资源。
问题5:如何进行软件本地化?(高级篇)
回答:软件本地化的基本流程因项目特点而异,但通常包括以下几个步骤:
①项目准备:项目准备是软件本地化的第一步,主要涉及准备软件资源文件、设置编译环境以及准备本地化工具包和工程指导文件;②预处理:预处理包括资源抽取、伪翻译和预翻译。资源抽取是通过本地化工具提取软件中的源语言资源;伪翻译是将原文复制到译文区或随机生成目标语言字符串,以测试软件的本地化能力;预翻译是利用已有的记忆库和术语表对内容进行翻译,以减少工作量。③翻译、编辑和校对(TEP):在此阶段,译员完成字符串和句段的翻译,并遵循翻译规则,如变量和快捷键的处理。翻译完成后,需进行质量保证(QA),确保内容质量;④ 后处理:后处理包括验证、控件调整和编译。使用本地化工具验证内容,检查热键问题、控件重叠等,并根据验证结果调整控件,最后重新打包生成本地化产品;⑤本地化测试与修正缺陷:编译完成后,进行本地化测试,包括语言测试、功能测试和界面测试。通过修正测试中发现的缺陷,提高软件的质量和稳定性。
问题6:如何进行网页本地化?(高级篇)
网站本地化是一个复杂的过程,涉及源语言网站文本、图形和数据库内容的处理与翻译,以及网页设计、制作和搜索引擎优化等。不同类型的网站(如静态和动态网站)在本地化流程上有所不同。以下是静态和动态网站在文本层面的本地化流程简述。
①静态网站本地化基本流程
获取网站内容:从客户处获得源文件,使用抓取软件下载网站内容。静态网站通常由网页文件、样式文件、脚本文件和多媒体文件组成,待翻译文本一般存储在.html格式的网页文件中
翻译网页文本:现代CAT工具支持解析多种标记语言文件,包括.html文件。将.html文件导入CAT工具,隐藏不可译的标记,仅保留需要翻译的文本进行翻译,同时保持内嵌标记的位置
调整网页布局:翻译后,可能出现样式和布局变化,需要进行调整。例如,翻译后的字符长度可能超出控件长度,或内嵌标记丢失,需从代码层面修正。
②动态网站本地化基本流程
安装本地化插件:在WordPress等内容管理系统中,通过安装本地化插件实现网站本地化
设置源语言和目标语言:设置源语言和目标语言,例如从简体中文到美国英语,并可为网站设置多个目标语言以实现多语言支持
提取和翻译源语言文本:使用本地化插件选择并提取需要翻译的文本内容,主要页面需完全翻译,而内部插件和主题字符串可选择性翻译
导入目标语言文本:本地化插件支持在后台直接翻译文本,也可导出为.xliff、.po等格式供外部CAT工具使用,再将定稿文件重新上传至插件管理系统应用新译文。
1. 优点
理论价值:本书在“基础篇”中系统介绍了语言服务、翻译技术、本地化和技术写作等领域的基本概念,不仅帮助读者理清翻译技术发展的理论脉络,还为语言服务行业的技术发展提供了理论支持。例如,通过阐述GILT(全球化、国际化、本地化、翻译)的概念及其相互联系,帮助读者深入理解本地化工程与翻译实践的结合。
实践价值:本书在“进阶篇”和“高级篇”中以实践案例为驱动,围绕翻译技术中的关键工具和问题展开讨论。例如,书中详细讲解了如何在复杂文档处理环节中使用光学字符识别(OCR)技术和翻译记忆库管理技术,不仅提高了读者对文档处理的效率,还展示了翻译辅助技术在真实项目中的应用场景。此外,在字幕翻译方面,本书通过案例展示了时间轴创建与校对的具体操作方法,为从事字幕翻译的译者提供了实用指导。
2. 局限性
时间局限性:由于本书出版时间相对较早,未能全面涵盖近年来翻译技术的最新发展,特别是大语言模型(如ChatGPT)的应用场景。例如,大语言模型在翻译和生成式AI中表现出了强大的语义理解和上下文处理能力,在现今已经显著改变了翻译实践的部分流程。
案例局限性:本书的案例分析集中在特定的翻译工具(如Trados)上,未能涉及更多主流翻译工具(如MemoQ)的应用,可能会在一定程度上限制读者对不同工具之间差异和优劣的全面了解。
王华树,陈涅奥,叶梦轩.翻译技术100问[M].北京:知识产权出版社, 2019.
读者姓名:张盼 (北京外国语大学,高级翻译学院英语口译24级研究生)
指导老师:唐中黎(北京科技大学)
审核老师:雷静(中央民族大学) 曹姗姗(北京信息科技大学)
特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。