COCA单语语料库的介绍与使用

 

该书以解决翻译实践问题为导向,以多元化搜索技术为脉络,基于数百个典型案例和应用场景进行详细讲解,内容涵盖桌面搜索、文档搜索、词典搜索、术语库搜索、语料库检索、网络搜索以及学术搜索等多个方面,旨在系统提升广大翻译从业者的搜索素养。全书紧跟国家人工智能发展战略,基于数据驱动和数据赋能的理念,致力于将最新搜索技术与翻译工作需求深度融合,是国内首部聚焦译者“搜商”的著作。该书既适用于外语、翻译专业的师生,也适用于广大语言服务从业者、翻译爱好者及相关研究人员。

本文将分享第五章第一节 单语语料库中,美国当代英语语料库COCA功能以及其如何应用。希望能够对大家有所帮助。它们分别是:

(一)系统介绍

(二)案例演示

1)单词/词组在COCA中的使用频率

2)模糊检索3)搭配检索4)近义词检索

5)近义词搭配比较

6)词形与发音检索

目前该书可在各大购物平台购买,也可在微信阅读上免费阅读,欢迎大家一起阅读学习!

01
美国当代英语语料库 COCA
(一)系统介绍
 
 

美国当代英语语料库(Corpus of Contemporary American English),简称COCA,是目前最大的免费英语语料库。其语料均衡分布在口语、小说、杂志、报纸以及学术文章文体中,被认为最合适用来观察美国英语当前发展的英语语料库,也是广大英语爱好者的学习宝库。图6-1为基础界面,表6-1为功能介绍。COCA是english-corpora.org网站的一个子库,该网站下还有电影等十几个语料库,学会了COCA语料库的检索,也有利于其他语料库的检索。

图6-1 COCA的基础界面

表6-1 COCA基础界面的功能介绍

 

(二)案例演示
1.如何检索单词或词组在COCA中的使用频率?

(1)点击“List”,在检索框输入关键词,如输入“confess”,点击“Find matching strings”进行检索,进入“FREQUENCY”界面中,“FREQ”栏显示该词在COCA语料中出现的次数。如图6-2所示,“confess”在COCA中使用频率为7580次。

图6-2 在COCA中检索“confess”的词频

(2)直接点击“CONFESS”,即可进入“CONTEXT”界面查看该词出现的上下文,如图6-3所示。

图6-3 在COCA的检索结果中查看“confess”的上下文

(3)再点击前方“BLOG”(文体“网志”的缩写,更多文体缩写翻译可参照表6-2)可进入“CONTEXT+”界面查看完整文本、日期和文本来源,如图6-4所示

图6-4 在COCA中检索“confess”的语料来源并查阅完整文本

表6-2 语料来源各类文体缩写

(4)如果我们想要检索该词的所有形式,如现在分词、过去分词等,那么在检索的时候还需要加入“[]”,或者所有字母都大写,如检索“confess”的所有形式,在List的检索框中输入“[confess]”,或“CONFESS”,检索结果如图6-5所示。

图6-5 在COCA中检索“[confess]”的结果

(5)如果想要比较多个词语的使用频率,在检索词之间插入“|”即可,比如比较“confess”“admit”和“declare”,在“List”的检索框中输入“confess|admit|declare”即可,检索结果如图6-6所示。

图6-6 在COCA中检索“confess|admit|declare”的结果

(6)如果想按照文体和年份查看使用频率,点击初始界面的“Chart”,在检索框中输入关键词,如输入“confess”,点击“See frequency by section”进行检索,检索结果如图6-7所示

图6-7 在COCA的“Chart”中检索“confess”的结果

视频演示(打开文末链接,下拉文章至此处)
2.如何进行模糊检索?

(1)在COCA中,“? ”可以用来表示一个字母,比如忘记“ad? pt“第三个字母的时候,可以在检索框中输入“ad? pt”进行检索,检索结果如图6-8所示,很快就可以锁定我们需要找的词汇。

图6-8 在COCA中检索“ad? pt”的结果

(2)在COCA中,“*”可以填充一个或多个字母。比如,想检索以un-开头,以-ed结尾的所有单词,在检索框中输入“un*ed”即可,检索结果如图6-9所示。

图6-9 在COCA中检索“un*ed”的结果

(3)“*”也可以表示一个完整的单词。比如想要检索“tread”后面经常接什么词,在检索框输入“tread *”即可,检索结果如图6-10所示。需要注意的是,此处“*”与左右单词之间需要空一格。

图6-10 在COCA中检索“tread *”的结果

 

3.如何使用“List”进行搭配检索?

(1)“List”界面支持词性检索,可以输入词性代码选择词性,如检索“money”前面一般接什么动词,检索框输入“_v money”(或[v*])即可,检索示例如图6-11所示。

图6-11 在COCA的“List”中进行搭配检索的输入示例一

(2)或者先下拉POS选框选择“verb.ALL”,系统会自动填充“VERB”,再在“VERB”后输入“money”,检索示例如图6-12所示。

图6-12 在COCA的“List”中进行搭配检索的输入示例二

(3)检索结果如图6-13所示。

图6-13 在COCA中检索“money”词前所搭配动词的结果

视频演示(打开文末链接,下拉文章至此处)

(4)常用词性代码请参照表6-3:

表6-3 COCA的词性代码与POS选框中英对照表

(续表)

 

4.如何使用“Collocates”进行搭配检索?

(1)选择“Collocates”检索模式,在第一栏“Word/phrase”输入检索词,以检索“postpone”的搭配为例,输入“postpone”;

(2)如果不限定搭配词的词性,第二栏“Collocates”可以不填,系统会默认检索所有名词、动词、形容词和副词。也可以参照表6-3的词性代码1或2对所搭配词性进行限定,POS对此处不适用;

(3)第三栏可以选择关键词搭配的跨距。如果我们想要检索“postpone”右边相邻的搭配,可以左边选择0,右边选择1,表示检索范围为关键词右边,且跨距为一个词,示例如图6-14所示。

图6-14 在COCA的“Collocates”中检索“postpone”搭配的输入示例

(4)点击“Find collocates”,检索结果如图6-15所示,单词底色随排序结果由深至浅。

图6-15 在COCA中检索“postpone”的搭配结果

(5)点击“Advanced options”可以对检索结果进行排序,可根据词频或MI值进行排序,并设置最小词频或者MI值,图6-16为按照词频排序且最小MI值为3的排序结果。

图6-16 在COCA中检索“postpone”的搭配并排序的结果

视频演示(打开文末链接,下拉文章至此处)
5.如何检索近义词?

(1)选择“List”,以检索“reveal”的近义词为例,检索框输入[=reveal],输入示例如图6-17所示。

图6-17 在COCA中检索“reveal”近义词的输入示例

(2)检索结果如图6-18所示,“reveal”近义词按照频率从高到低排列有“tell”和“show”等词;

(3)点击单词右边的“[s]”,可进入该词的近义词检索。

图6-18 在COCA中检索“reveal”近义词的结果

 

6.如何比较近义词的搭配?

(1)选中“Compare”,以比较“repair”和“restore”所接名词为例,在“word 1”和“word 2”中分别输入“repair”和“restore”;

(2)“Collocates”栏输入“[n*]”(或“_n”), POS在此处也不适用;

(3)数字栏选择右边的1,即我们选择跨距为1,检索其二元词丛,输入示例如图6-19所示。

图6-19 在COCA中对比“repair”与“restore”所搭配名词的输入示例

(4)点击“Compare words”,结果如图6-20所示,左右两栏深绿色部分的单词分别为其常用搭配名词。

图6-20 在COCA中对比“repair”与“restore”所搭配名词的检索结果

 

7.如何根据词形与发音检索单词?

(1)选中“Browse”栏,进入“Browse”检索界面;

(2)“Word form”为词形,比如检索前缀为“ex-”的单词,此栏需输入“ex*”;

(3)“Part of speech”为选择词性,可部分勾选,也可全部勾选,比如只想检索名词,只需勾选“NOUN”;

(4)“Range”为使用频率排名范围,如需检索排名为1-20000的单词,则该栏需分别输入“1”和“20000”;

(5)“Pronunciation”栏可以输入押韵的词汇,如输入“criticism”,将匹配与该词押韵的词汇。

(6)“Syllables/stress”栏为匹配音节与重音,如检索四个音节且重音在第二位的单词,先点第四个圈,表示共四个音节,再点第二个圈,这个圈的颜色会由绿转红,表示重音在第二音节。

(7)勾选“Show all words”,检索结果如图6-21所示,仅“extremism”一词符合检索条件。

图6-21 在COCA的“Browse”中检索单词

视频演示(打开文末链接,下拉文章至此处)

以上就是本文的全部内容,欢迎大家阅读原书,共同学习!

https://mp.weixin.qq.com/s/EJx6uvc7KPAJSU61qCFdPw

别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。

– END –

翻译圈公众号旨在为读者提供名师和专家对口笔译的真知灼见,CATTI考试和MTI入学考试信息,翻译等语言服务就业资讯,以及口笔译学习资源和知识,希望在翻译之路上,为大家助上一臂之力。欢迎大家积极留言,为我们提供建设性意见,我们共同进步!

原文作者:李伟泽

推文编辑:李伟泽

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注