《中国大百科全书》中的“平行语料库”

1. 平行语料库|Parallel Corpus

《中国大百科全书》(第三版·网络版)发布了黄国平博士撰写的“平行语料库”词条。现转录如下,以资交流。

收录某一源语语言文本及其对应的目的语文本的语料库。

关于平行语料库的定义一直存在分歧。S.约翰松认为平行语料库是收录具有可比关系的两种语言文本的语料库,而M.贝克则主张平行语料库收录的文本是A语言文本及其B语言译本。较之于前者,后者更被学界接受。学界普遍认为平行语料库是指收录某一源语语言文本及其对应的目的语文本的语料库,不同语言的文本之间构成不同层次的平行对应关系。

根据语料所涉及语种的数量,平行语料库可分为双语平行语料库和多语平行语料库,前者由构成翻译或对应关系的两种语言文本组成,后者则收录一-种语言文本和该文本的两种以上语言的译本。按照语料平行对应的方向,平行语料库可分为单向平行语料库(如德语-英语文学平行语料库、莎士比亚戏剧平行语料库和汉英会议口译平行语料库)、双向平行语料库(如通用汉英对应语料库)和多向平行语料库(如《圣经》多语语料库)。

平行语料库区别于其他语料库最典型的特征是语料之间的平行对齐。平行对齐指源语文本和目的语文本具体单位之间的对应关系或翻译关系,分为词汇、语句和段落等层面的对齐,对齐的层面越小,技术处理的难度越大。语料之间的平行对齐处理是一项技术难度较高而且耗费时间和精力的工作。语句层面的对齐方法主要分为基于长度的方法和基于词汇的方法,后者的准确率要比前者高,但更耗时耗力,不太适合大型平行语料库的建设。

平行语料库最大的优势在于能够自动呈现两种或两种以上语言的词汇、语句和语篇之间的对应关系。通过考察这些层面的对应关系,可以比较不同语言之间的异同,分析不同语言词汇之间的对应关系,探讨翻译转换规律。因而,平行语料库对于语言对比、双语词典编纂、机器翻译和翻译策略与规范研究都具有很高的应用价值。 

2. 作者简介

胡开宝,男,1966年4月生,中共党员,博士,教授,博士生导师,教育部国家重大人才计划特聘教授。现任上海外国语大学校长助理、语料库研究院院长。曾任上海交通大学外国语学院副院长、常务副院长和院长等。

 3. 文献来源
原文发表于《中国大百科全书》第三版网络版,欢迎各位学者阅读、分享。
特别说明:本文仅用于学术交流,如有侵权请后台联系小编删除。
– END –

转载来源:翻译圈

转载编辑:王晨谕

审核:陈杲  王贇  Ethan  陈柯淼

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注