译界专访 | 管新潮:Python技术赋能翻译专业,拓展更多机会与可能性

译界专访 | 管新潮:Python技术赋能翻译专业,拓展更多机会与可能性

翻译技术教育与研究

 

2024年08月27日 00:00 

专家简介

管新潮

上海交通大学外国语学院翻译系副主任、副教授。职业译者,长期从事德英汉翻译实践,至今已累计翻译和审校达3000万字。主要翻译领域涉及海洋工程与船舶制造、医学、法律、机电等。建有英汉医学平行语料库、英汉海洋工程平行语料库、英汉法律平行语料库、德汉合同文本平行语料库、马克思《资本论》德汉平行语料库、德语法院判决书语料库、德英汉知识产权法平行语料库等。为德国劳氏船级社、挪威船级社、艾斯维尔出版社、施普林格出版社、华为技术公司、毕马威咨询公司等国际知名企业提供语言服务解决方案。

主持联合国项目1项,国家级项目3个,发表论文20余篇,出版专著5部、译著10部,拥有专利2项、软件著作权2项。

研究方向:计算翻译学、翻译技术与管理、法律翻译。

请问目前语料库有哪些类型?构建语料库有哪些注意事项?选取语料时应遵从哪些原则?

管新潮:语料库包括单语语料库、双语/多语语料库和可比语料库等。其中,可比语料库的特点在于语料具有可比性,分为单语可比语料库和双语可比语料库。单语可比语料库采用“翻译文本+原创文本”对比形式,比如通过对比政府工作报告的英文译文和国外类似文本来探索英文作为译入语和作为源语的差异。双语可比语料库则选取无翻译关系的双语文本,比如通过对比德国有限责任公司法和我国相关法律来发现语言之间的差异。

语料库构建通常包括语料库设计、语料采集、语料降噪/清洗、语料对齐/标注、语料生成等环节。在选取语料时,应遵循代表性或影响力原则、可及性原则、时间原则、质量原则、分类原则和规模原则等。

您认为语料库语言学和语料库翻译学二者有何区别?

管新潮:语料库语言学和语料库翻译学都以语言数据为研究对象,但二者在所使用的语料库类型、研究方法、研究内容、研究工具等方面存在一定差异。

语料库语言学研究主要基于单语语料库,更关注语篇特征、语法特征、词语搭配、语域特征、词典编撰、语言习得等内容。研究者一般通过概率法对语言现象作语法分析。该领域常用的语料库工具有WordSmith、AntConc、Python等。

语料库翻译学研究主要基于双语语料库,更关注翻译共性、译者风格、翻译规范、翻译实践等内容。研究者一般通过数据统计和理论分析等研究方法,依据语言学、文学和文化及翻译学理论,系统分析翻译本质、翻译过程和翻译现象等。该领域常用的语料库工具有ParaConc、Excel、Python等。

您如何评价Python技术?您认为语言专业学生应如何用好Python技术呢?

管新潮:Python技术用途广泛,可以和各领域很好结合。整体而言,我认为Python技术有以下两方面优势,可以很好辅助师生开展翻译技术学习与研究。一是可以快速获取大量数据信息,更好地辅助开展翻译工作;二是可以推进翻译技术教学创新,比如在翻译技术教学中可以不再仅依赖现有翻译技术工具进行“拿来主义”教学,而是可以根据自身需求和实际情况自行开发所需工具。

我认为语言专业学生可以将Python技术应用聚焦于语料库这一领域,能通过该技术解决语言和翻译相关问题即可。我认为按照以下三个层次循序渐进地学习,就能用好Python技术。第一层次是掌握与语料库相关的基础代码,能进行数据清洗或降噪等基础操作。第二层次是活学活用基础代码,能进行快速提取关键词等稍复杂的操作。第三层次是有创造性地运用代码解决更为复杂的问题,例如探索推动翻译技术工具融合应用,开发新功能、拓展新思路。

您认为自然语言处理技术会为语言学和翻译学研究带来哪些新的可能性?

管新潮:通过自然语言处理技术,我们可以从非结构化文本中提取信息、分析文本语言学结构等。以提取信息为例,在语言学领域,可以通过提取主题短语等方式探索语言学发展规律;在翻译学领域,可以通过提取情感要素分析译文与原文在情感方面是否保持一致或者是否有必要保持一致。还可以使用自然语言处理技术工具开展语言学/翻译学可视化等研究工作。这一技术一方面可以辅助对比数据,另一方面可助力使用者快速摸清数据规律,从中发现有价值的语言学或翻译学规律。情感分析技术是自然语言处理的一项关键技术,其应用极其广泛。这项技术涉及经典的情感分析技术、情感词表技术、经典机器学习情感技术、预训练模型技术、自训练模型技术等。这几年的翻译教学实践表明,自然语言处理技术确实让我们获益匪浅:一是在学术层面助力MTI学生发表顶刊论文,二是拓宽学生就业渠道——让文科生也可从事工科相关工作。

近年来,随着大语言模型等人工智能技术的快速发展,“人工智能+翻译”的工作模式日益普及,请问您如何评价这种翻译模式?当前是否还有必要继续学习Python技术呢?

管新潮:“人工智能+翻译”的工作模式目前来看是可行的,且已经有一定的市场应用,但适用性受限,因为无法保证其译文直接满足交付要求,通常情况下,这一模式产出的译文还需要译后编辑,有时甚至需要较多工作量的译后编辑。我们曾借助Python技术进行翻译质量评估,发现对译文质量要求越高,这一模式适用性越低。以联合国文件翻译为例,“人工智能+翻译”模式下产出的译文评分是81分,远未到优秀等级的门槛——90分。经过多种类型的翻译质量评估,我觉得这种模式不适用于对译文质量要求严格的翻译实践任务。针对这一问题,我也曾与技术企业和高校专家有过交流,大家普遍认为现有模型尚未达到高级译员的翻译水平,还有待下一代语言模型的出现。

关于是否有必要继续学习Python技术,我认为语言学或翻译学方向从业者并不是纯粹地学习Python技术,而是要学习如何将Python技术融入语言学或翻译学,去解决传统语言学或翻译学无法解决的问题。这一点仅仅依靠技术人员也是无法实现的,迄今为止的翻译技术教学实践已经证明了这一点,DTI翻译技术应用与研发方向的设置也证明了这一点。在语言模型快速发展的时代,我认为学习Python技术有助于翻译专业师生今后的职业发展。当下的Python技术已不仅限于传统编程,而是可以结合各种各样的大中小语言模型,大家可以由此抓住更多机会,探索更多可能性。

2024年,您对大语言模型等新技术赋能翻译行业发展有何期待?

管新潮:大语言模型将会极大赋能翻译行业发展,我对此确信无疑,并且已引入自己的翻译教学实践。但现有大语言模型尚存有不少缺点,如不一致性、不安全性、不稳定性等。如何解决这些问题,是今后大语言模型发展面临的挑战。

其实,我们语言学或翻译学方向从业者完全可以为此作出自己的贡献。例如建设专有翻译知识库,将其与大语言模型融合;训练自己的语言模型或微调语言模型,以达成特定的语言学或翻译学目标;将语料库转换为知识库,使其发挥更大作用。

此外,大语言模型的使用与算力息息相关,目前可供使用的多为大型机构提供的大语言模型,这一点其实也限制了我们语言学或翻译学方向从业者的“研究品质”,在此建议不妨多尝试使用那些中小规模的语言模型。

特别说明:本文仅用于学术交流,如有侵权请后台联系小编删除。

 

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注