在当今语言研究的领域,语料库语言学正逐渐成为一门重要的交叉学科。《语料库语言学导论》由语言学教授杨惠中撰写,深入浅出地介绍了语料库语言学的基本概念和研究方法,为我们打开了语料库语言学的智慧之窗。
推荐理由:无论是学术研究者、语言教师还是语言学习者,《语料库语言学导论》都将作为理解和应用语言数据的重要参考读物,帮助提升教学水平,助力学术研究。
类别:语料库语言学、外语教学
总序和前言
除了总序和前言,本书包含三个部分共九个章节。
第一部分 理论研究
第三章:语料库证据支持的词语搭配研究。第三章介绍了语料库在词语搭配研究中的应用。词语搭配在语料库语言学研究中处于中心地位。词语搭配的界定特点体现在以下层面:词在组合轴上的共现、组合轴上词语的有限组合、语言使用的因循性、意义——形式的综合体、词的反复共现及其统计度量、以及不同语域里词语使用特点的反映。词语搭配研究需要考量的语料库基本方法和注意事项有:提取节点词在语料库中的所有搭配词、跨距的长度、统计检验、偶然共现词的排除、定性分析与定量分析相结合等。词语搭配研究融词汇与语法一体、对孕于形式中的功能,是客观、具体的典型意义研究。
第二部分 分析方法与技术
第五章:文本索引工具及应用。第五章阐释了语料库引擎(语料库索引程序)的基本功能和索引意义,并介绍了目前可用的索引资源和索引软件。本章通过MicroConord示例,展示索引工具的基本功能,包括词表与语篇统计、“带语境的关键词”(KWIC)索引、搭配词统计、词语型式设计、词丛统计、主题词提取与词图等,并展示个案分析实例——分析obtain, knowledge, success在不同语料库的用法。此外,本章简要列举了可获得的电子文本和语料库资源及网址,介绍了MicroConcord, TACT, Wordsmith Tools, TEC Concordancing Tools, Concordance等语料库索引软件的基本特点、主要功能和使用步骤。
第三部分 专题研究
第九章:千年之际展望语料库语言学。第九章译自辛克莱教授的一篇评述性文章,评述了目前语料库建立中的实践与重点事宜、以及语料库利用技术,涵括语料库的分类、标记与注释、工具、结构分析、基于语料库与语料库驱动、多语语料库、口语语料库、词典等多个方面。本文总结了语料库语言学的发展趋势,对即将到来的变化作了几点预测。千年之交(2000年)即将来临,进行变革和再生长的时代即将来临。
20世纪60年代,以乔姆斯基为代表的生成语法学派认为,语言学的研究对象是人脑的语言机制(语言能力)而非语言的具体运用(语言运用)。语料是语言运用的结果,会受到各种其他因素的干扰,不能用来揭示语言的本质,因此反对研究具体语料。20世纪70-80年代,语料库语言学兴起,在词典编纂、语言教学、自然语言处理等方面得到实际应用。它着重对大数量文本语料进行研究,对自然语言进行定量分析,从而可能产生新的研究方法、建立新的语言学模型,为语言学研究提供了一种全新的研究思路。
就我国外语教学而言,建立学习者英语专用语料库,并以语料库为基础开展学习者语言分析,无论是对我国21世纪外语教学,还是对我国语言学与应用语言学研究,都具有重大意义。具体体现为:1. 为我国外语教学、尤其是写作教学,提供大量可靠数据并产生积极的后效。2. 对各种标准化英语测试和作文评分提供坚实的依据,为题项的命题和题项测评提供客观数据,有助于提高题项的结构效度和评分信度。3. 有助于推动量化研究的发展,深化外语教学研究中“数据”驱动的原则。4.与国际外语教育研究接轨并达到同步发展的水平。
在语料库问世之前,人们难以获得大量的真实语言数据对语言进行研究,只好使用相当多的直觉数据对语言进行描述,主要集中在抽象的句法结构和语义框架方面。基于现代计算机技术的语料库使得成百上千万的连续文本得到有效储存和检索,让语言行为研究成为可能,变得便捷。因此,词语行为研究(主要是词语搭配研究)便成为极富活力的研究领域。另外,一系列重要的语言学观点也对词语搭配研究起了关键的指导和推动作用,主要包括:1. 语言交际主要是词语推动;2. 语言学研究应以词语研究为出发点;3. 有必要将语言的使用和运作看成是一个词语的网络系统;4. 语言学应研究真实使用中的语言。
语料库的预加工主要包括语料的标识和语料的赋码。对文本的性质和特征进行标识可以用来对文本进行必要的分类,为灵活提取文本进行各类目的的研究提供了极大的便利,而且不会破坏语料的完整性和原始性;对文本的符号、格式等进行标识对于某些研究和应用(如自然语言处理)也很有必要。语料的赋码代表了词汇和句法的语法特征,不仅充分证明了语言或语法的概率特性,而且为语言的量化研究创造了条件,为进一步研究自然语言的概率性特征提供了方便,同时也为进一步的语义和语用分析打下了必要的基础。
以外语教学中的语法和词汇教学为例,应用语料库索引的优势显而易见。语料库索引为语言教学提供真实可靠的语境信息,使教师和学生在真实语言应用中验证教科书和词典中所给的定义和解释,从而使学习的过程变成自我探索和自我发现的过程。在外语教学中,语料库索引在语法和词汇教学与学习中的应用主要有:1. 通过对语法结构、时态、功能词等检索,可以即时验证各种语法结构的典型用法。2. 同义词比较。3. 词语搭配。4. 检查英语中同一个词不同的拼写形式。5. 编制即时课堂练习。
与自由组合的情况不同,构成有限组合词的搭配力受诸多因素的制约,只能和有限范围的词结合在一起使用;与成语的情况不同,成语基本上是一种固定词组,词的搭配能力已被穷尽,已无搭配范围可言。但是,构成有限组合的词却有一定的自由度去和一定范围内的词结合为搭配。其涵义就在于它揭示了词语组合行为的有限性这一特点。然而,制约词语组合行为的因素是十分复杂的,由这些复杂的因素产生的搭配又各有特点,根据定性分析与定量分析相结合的方法,可分为四大类别:一般搭配、修辞性搭配、专业性搭配、惯例化搭配。
人们在使用语言的过程中对语言项目使用频率高低会留下印象,在记忆词汇、语法结构时,会同时储存这些词汇、语法项目在语言中出现的频率。人在使用语言时会不自觉地根据语境参考潜意识中的概率知识,选择恰当的表达。从一定意义上讲,语体是不同文本中各语言单位的使用频率的差异引起的。我们对某文本的语体风格的印象是由于该文本中的语言项目的密度与这些项目在语境相关的对照文本或文本体系中的密度明显不同造成的。描述语体风格即是描述一个文本或文类在多大程度上偏重于某种表达方式。语体研究人员对某种语体风格的判定一般要有数据支持,因而决定了语体研究的量化特点。
词语的使用与语境是不可分离的。词项的真正意义就在语境之中,存在于与之结伴的别的词项之中;研究词义必须从研究语境、研究典型的词语搭配开始。意义制约着词语与句法结构的选择,一切语言形式的选择都要受制于意义实现。它向传统语言描述体系中将创法置于首要地位、词语置于次要地位的做法提出了挑战,并给人们以重要启示:词项并不仅仅是实现一定句法结构的填充材料。它有自己的行为模式,在实现交际意义中起着极为重要的作用。词语行为研究应当成为语言研究的出发点并居于中心地位。
语料库语言学之所以出现了这样的情势,是因为它还没有系统地阐述过自己的理论和描述方法。被主流语言学冷落了三十年后,语料库开始被计算语言学家视为有用的资源,因为这些计算语言学家开发了复杂的描述程序但却发现难以用之处理普通文本。总之,借助计算机来理解语言的潜力是极大的,不应当被语料库问世前的方法惯例阻碍。
语料库语言学是出现在语言学、计算机科学、认知语言学和应用语言学边缘上的一门新的交叉学科。它以真实的语言数据为研究对象,从宏观的角度对大数量的语言事实进行分析,从中寻找语言使用的规律;在语言分析方面采用概率法,以实际使用中的语言现象的出现概率为依据建立或然语法进行语法分析。语料库语言学为语言学研究提供了一种全新的研究思路,从一个新的角度揭示自然语言的复杂性。
语料库是指按照一定的语言学原则,运用随机取样方法,收集自然出现的连续的语言运用文本或话语片段,从而建成具有一定容量的大型电子文库。从其本质上讲,语料库实际上是通过对自然运用的随机抽样,以一定大小的语言样本代表某一研究中所确定的语言运用总体。真正意义的现代语料库是指大型的以电子文档为主要构成的计算机语料库。
现代学习者语料库是通过收集语言学习者各种书面语和口语的自然语料而建立起来的一种学习者语言数据库。与以往的学习者错误语料库不同,其目的在于对学习者的语言特征和语言发展进行全面而系统的描述和对比分析,而不是仅限于对学习者错误进行分析。最早的学习者语料库是80年代末建立起来的朗文学习者语料库(Longman Learners’ Corpus)。
广义的词语搭配界定体系认为,词与词的共现关系是最重要的或者说唯一的标准。只要一个词与另一个词共现达到统计学上的显著程度,它们就构成搭配。这里的定量分析最为重要。狭义的词语搭配定义主张搭配研究必须参照语法限制关系。语法的限制作用和词语的决定作用共同对搭配造成制约。只有处于同一语法结构中的词项才可能构成搭配,但不一定都是典型的搭配——还要看词项之间共现的显著性程度。”Grammatically well-structured”是最重要的标准之一。
句法分析又称为句法赋码,即对文本中的每一个句子进行句法标注。在UCREL小组的概率句法赋码系统中,词类赋码的输出正是句法赋码的输入。UCREL的句法赋码系统主要分三个步骤:1. 对文本中的每一个词赋以可能的句法符。2. 寻找一些特殊的语法码形式和句法片段,并对句法结构作必要的调整。3. 完成每一可能的句法分析,并逐一赋值,从中选出可能性最大,即值最大的句法分析作为每句的分析结果。句法分析系统以语料库为基础,通过从语料库中挖掘出来的概率信息,对真实的语料进行赋码,为语言的量化研究创造了条件。
语料库最基本的分析手段通过全文检索和词语索引来实现。词语索引的基本意义是把搜索词或词组按字母或频率顺序排列与其所在语境一同展示。词语索引最常见的形式称作KWIC (key words in context),即“语境中的关键词”。该技术为每一个搜索到的关键词提供所在行固定数量的语境词,并以该关键词为中心在屏幕上显示出来。关键词在不同的索引分析或软件中的其他名称有搜索词、节点词等。由于KWIC索引立足“跨距”构成的“共现语篇”,该方法对单个的搜索词不仅提供短语和句子层面的使用语境,还可以提供整个语篇。
又称词语化(Lexicalization)。波利和塞德曾从意义的权威性和标准性、形式的因循性和结构的任意性三个方面来界定惯例化。具体来说,即:1. 它是表达语言社团里的某个固定意思的词语组合序列,其意义清晰明白,不模棱两可;2. 这种词语组合序列被语言社团成员认可为表达该固定意思的固定或半固定形式;3. 从语言学的角度来看,选取该词语组合序列来表达该固定意义是一种任意性行为。
MD/MF是多维度(Multi-dimensional)、多特征(Multi-feature)的缩略形式。多特征指模型建立过程中利用了大量的语言项目。语言的语体风格从非正式到正式,或从口语化到书面语化等的变化是一个连续体,在该模型中被称为维度。这一模型是贝博 (D. Biber 1988)在研究口语和书面语的特征时建立。这项研究证明语域之间存在系统的差异,仅从某个维度不足以描述清楚,需通过不同的维度来分析。基本思想是根据所要研究的对象,确定大量可能有区别意义的语言项目,调查其在研究对象中的使用概率,再用数理统计的方法确定这些语言项目的相关程度,即确定哪些语言项目在文本中是同现还是相互排斥。
有些词语习惯性地吸引某一类具有相同或相似语义特点的词项,与之构成搭配。由于这些具有相同或相似语义特点的词项习惯性地、反复地与关键词项在文本中出现,关键词项也就被“传染”上了有关的语义特点,它的整个语境内也就弥漫着一种特殊的语义氛围。这就是语义韵。词语搭配形成的语义韵大体上可分为消极语义韵、中性语义韵和积极语义韵三类。绝大多数英语词的搭配行为呈现中性语义韵,而一些词项具有强烈的消极语义韵,另一些词项则有明显的积极语义韵。
来源于第一章:语料库语言学概述
-
样本具有总体的统计特征,研究语料库中的语言材料即近似于研究语言本身。
-
语料库中的语言材料源于人们的实际使用,语料库语言学的研究结果具有可靠性和真实性。
-
调查结果不受研究者和被试者的主观判断影响,具有客观性。
-
语料库语言学的研究还能提供有关语言使用的概率信息,为语言研究提供新路径。
来源于第二章:语料库与学习者语料库
语料库的设计和建设是在系统的理论语言学原则指导下进行,语料库的开发具有明确而具体的研究目标。 语料库语料的构成和取样是按照明确的语言学原则并采取随机抽样方法收集语料。 语料库作为自然语言运用的样本,必须具有代表性。(控制抽样过程和语料比例关系来缩小偏差) 语料库语料以电子文本形式储存并且是通过计算机自动处理的。 基于语料库的研究以量化研究为基石,以概率统计为基本手段,以“数据驱动”为基本理念。 语料库既是一种新的研究方法,又代表着一种新的研究思维,并以当代先进的计算机技术为技术手段。 预料文本是一连续的文本或话语片断,而不是孤立的句子和词汇。
来源于第三章:语料库证据支持的词语搭配研究
在词语行为研究中,研究者只能用概率的方式来描述搭配的典型性程度,因此可以对共现的词语序列进行统计检验,看其是否为显著搭配。在研究实践中,有几种统计方法用来测量词语搭配的显著性。
-
搭配序列的频数÷节点词的频数:得到的商小于或等于1,越接近于1,所检验的搭配出现的概率就越大。这种方法主要用来检验一个搭配序列在文本的不同部分,随着节点词频数的变化而可能出现的概率变化,有助于分析研究文本各个部分的用语特点和风格。
-
根据搭配词的相对频数进行。相对频数=搭配词在语料库中的总频数/期望频数;一个搭配序列在库中实际出现的频数越高于其期望频数,它就越显著。期望频数的计算公式:(右图)。此外,期望频数还被用于Z分值(T分值)和相互信息值(MI值)中,用以反映搭配词与节点词共现的频数。
来源于第四章:语料库建设及其基本统计手段和原理
(标准化类符形符比:按一定的长度分批计算文本的类符形符比,然后求出他们的平均值)
易操作性:包括用户界面是否友好,运行环境是否常用的平台,指令是否复杂,以及是否提供帮助等。 文本预处理要求:即语料库文本在进入索引程序前是否需要生成特定的格式或标识。 检索结果展示直观性以及是否允许在屏编辑。在屏编辑可以迅速提取所需信息,减少中间环节。 功能丰富性。协调功能的丰富与易操作这对矛盾。 开放性,即每次处理语料量是否有限制。 自由软件与技术支持。即自由软件是否能免费获得,以及不断得到升级支持。
来源于第六章:英语词语搭配的种类
施动者——动作关系。如:machine … performed; student performance 动作——施动者关系。上类关系的两个要素刚好在这类关系中作了位置的调换,这是搭配在结构上转换的结果。如:the performance of the machines; the performance of the student 动作——受动者关系。如:the performed tests; the performance of the test 受动者——动作关系。上类关系的两个要素在这类关系中作了位置的调换,这是搭配在结构上转换的结果。如:task performance; operation performance
上述仅仅是专业性搭配内部所具有的部分逻辑语义关系。此外还有其他多种多样的语义逻辑关系。如:required performance可以被认为体现了一种“目标——动作关系”等。
来源于第七章:语料库语言学与学术英语语体研究概述
抽样及语言项目的确定:对以往的语体学研究进行分析,选择了这些研究中的67项语言项目。 频率统计:对这67项语言项目在481个文本中的使用频率进行统计。 因素分析:通过数学的方法确定这67个语言项目的共现规律,通过因素分析可以将大量的原始数据减少为一组因素。每个因素代表原始数据中能够归纳在一起的那部分信息,代表一组共现频率很高的语言项目。 计算维度分数并对各维度进行阐释:维度分数是文本在某一维度上的得分。(1)计算维度分数之前,要将所有项目的频率换算成均值为0,标准差为1的Z分数。(2)接下来求每个文本的维度分数,以便在各维度上对这些文本进行对比。(3)最后从功能角度对这些维度进行阐释。
6个维度:交互性/信息生成;叙述性/非叙述性;所指明确/所指依赖环境;劝诱/非劝诱;抽象/非抽象;即时性信息详述
来源于第八章:学术英语中的语义韵研究
Cause the spectacular effects: 用以描述河水污染带来的灾难性后果,具有反语、讽刺和警示意味。 Cause of conscience: 作者调用了一系列词语手段对小说中的he进行讽刺、调侃、挖苦。 Utterly fearless:既反讽了Chinese Lily这个人缺乏良知,胆大妄为的丑恶本性,又强烈地吐出了she已被绑架的可能性,表达了作者的判断和推测。 Incidence of skills: 作者为了突出国家“劳动力缺乏技能”这一事实,才如此进行词语组合,达到修辞上的强调、突出作用。
来源于第九章:千年之际展望语料库语言学
新词典的特征将是词汇语法式的(lexico-grammatical),首先不对句法和词汇进行区分,而是将句法说明视为词汇描述中的较为抽象的表述。 语料库研究表明,词或词组的意义对选择与其共处同一环境的其他词与词组有着深刻的影响;这种相互依赖的关系从未被正式表述过,但它的重要性十分明显,因而必须纳入词典设计中。 将词作为意义单位是低效率的做法。目前,大多数词书,如词典,都是围绕词来安排意义;在绝对不可避免的情况下,才引用词组作为独立的意义表达单位。新的词典很可能基本上以词群为单位,伴之以大量的内部结构变化。
简言之,与目前的模式不同,组合关系轴上进行的连续选择的全部融合力要纳入词典。
杨惠中. 语料库语言学导论[M]. 上海:上海外语教育出版社,2002.
审核老师:张晶(北京大学) 雷静(中央民族大学) 曹姗姗(北京信息科技大学)
特别说明:本文仅用于学术交流,如有侵权请后台联系小编删除。