01 Sketch Engine 简介
Sketch Engine 是由 Lexical Computing CZ s.r.o. 于2003年开发的一个语料库管理和文本分析软件。它的目的是使研究语言行为的人(词典编纂者、语料库语言学研究者、翻译者或语言学习者)能够根据特定动机的查询来搜索大型文本集。帮助大家探索单词在不同语料库中的用法和上下文。其库容十分庞大,现已有高达包含 101 种语言的语料,自带语料库 724 个,最大的语料库 English Web 2020 (enTenTen20) 含365亿字符。在种种强大功能的加持下,Sketch Engine 可以用于各种不同的语言学研究和教学场景,例如语言学习、语言教学、语言翻译、语言对比和语言分析等。
心动了吗,接着看下去吧!
02 如何进入?
官网:https://www.sketchengine.eu/
首先可以进入学校的电子资源库看看是否订购了 Sketch Engine,随后通过校园网或者校外访问的方式即可进入。还可以在登录页面通过搜索自己的学校来进行登录:
如果学校没有订购这个资源,也可申请30天的免费试用:
登录之后,便来到了主界面,通过校园网登陆和个人账户登陆的主界面功能可能会有差异,以下为个人账户界面:
乍一看功能太多不知道如何下手?第一步我们需要选择一个自己中意的语料库,在此处以 French Web 2020 (frTenTen20) 法语语料库为例:
点击 CORPUS INFO 可以查看所选定的语料库详情:
里面显示了该语料库的所有细节,包括其形符数、字符数、句子数、段落数、文档数、词性标注标签、子语料库信息以及更多词汇相关的信息。
03 词汇素描板块(Word Sketch)
首先,Sketch Engine的名字来源于它的一个主要功能——词汇素描(Word Sketch):将检索词的语法和搭配行为总结在同一个页面上。
在这个板块,你将会看到一个单词的语言使用情况的完整描述,包括该单词在语料库中的频率、常用的语法结构、词性和上下文等信息。这些信息可以帮助我们了解一个单词在不同上下文中的用法和含义。
在词汇素描页面的查询栏中输入 maintenir 这个词目(lemma),可以得出该词在对应语料库中所有的语法和搭配信息,词目(lemma)就是单词的基本形式,而在搜索结果中囊括了该单词的所有变形形式,例如以 go 为例,会得到包含 goes、went、going 等形式的结果。此处,从图中可以看到搜索结果有 152 万余条,为了使得搜索结果的呈现更加直观清晰,我们可以调整展示视角(Change view options)以显示词频(Show frequencies)。除了词频之外,此处还可以设置是否显示搭配案例(Show collocation examples)、关联度(Show scores)和文本类型(Show text types),也可以指定排序条件。
当选中 Combine grammatical relations 时会将所有搭配类型合并,以词频或者关联度高低整体排序:
如果选定另外一个 Cluster similar items(类似项词丛),则会根据我们设定的值聚合意义相近的搭配项目,当设定的值越接近 0,堆在一起的词丛就会越多,其覆盖的意义范围也就越大,词和词之间的关联会越松散;相反,当设定值接近1时,聚合在一起的词丛就会越少,丛内的词语意思也会相对更加接近。
当我们不勾选这两个选项时,就会得到了围绕这个 maintenir 动词多列展示,这也是最常规的操作:
按照展示结果依次是:和 maintenir 搭配的宾语、主语、副词、代词、动词不定式、介词、并列使用的动词以及一些常用案例。根据其出现频率,我们可以了解到这个动词置于不同于语境下的各类高频搭配,以此为据可以判断自己的用词是否地道。值得注意的是,有些分类是需要进一步筛选甄别的,如果对某一个条目感兴趣或者有疑问,可以直接点击 Concordance 或者条例数 277 来查看所选中的语料详情:
上图展示的是 sentence 模式,例句会以换行形式出现,也可以选择上下文关键词模式(keyword-in-context, KWIC)来对例句结果以字母顺序进行排序。(这一部分和AntConc 的功能类似。)
如果想查看语料出处,可以点击左边的来源信息,找到其 URL,即网页链接进入查看全文,我们,此番溯源能帮助我们评估语料的质量。
大家可以注意到,每一个条目右边有一个的图案,点击后会显示搜索结果的属性条目统计,例如,当我们点击抓取年份(Crawl year)的时候,可以了解到,在当前的277 条数据中,有 149 条数据抓取于 2020 年,97 条抓取于 2021 年。所有属性都可以这样进行统计聚合。
回到词汇素描(Word Sketch)主界面,让我们一起来探究一下右上角的这些功能选项:
第一个是更改检索规则 Change criteria,有四个选项,第一个就是最基础的单个词目搜索,第二个是进阶搜索,第三个是搭配表单,最后一个则是对此功能板块的一个介绍演示。
进阶搜索有四项可以改变的参数,以便进行更加精准的搜索:
1 – 指定词性;
2 – 指定子语料库(在父语料库信息详情中可见);
3 – 指定最小的语料关联度和词频数(低于设定值的搭配将不会被显示);
4 – 指定另一个语料库后,输入指定词目进行词汇素描,两个词的检索结果会并列展示,如图为法语和英语中对于“维持”这个单词的部分搜索结果展示:
如果将上图的英语语料库替换成中文,由于中法两种语言之间的语法关联对应尚未建立,排列结果则会是分散的。
第三项是搭配表单,在此处除了指定一些基本参数之外,还可以设置一个语料库作为参照进行搜索,搜索条件可以设置为“以X开头”、“以X结尾”、“包含X”以及运用正则表达式,并且可以设置多个条件限定。
在下图中,我指定了以 er 开头的单词,检索结果如下:
其结果并不是单纯的以 er 开头的单词的词频统计,而是所有符合条件单词的搭配统计,例如对于 French Web 2020 (frTenTen20) 语料库来说,最多的搭配是和定冠词的搭配,也就是 l’erreur,这并不是一种严格意义上的语法搭配,所以在采用检索结果时要进行甄别。
而对于参照语料库 Europarl spoken parallel- French 来说,最高频出现的搭配是 faire erreur:
通过不同语料库之间的搭配对照我们可以发现很多有趣的语言现象。第二个是下载图标,可以导出当前的搜索结果,有不同的格式可以选择,对搞研究的小伙伴们很友好,不用再苦哈哈地截图了。
第三个调整展示视角已在前面部分进行了介绍,此处不再赘述。第四个是结果筛选,当我们确定一个搜索词目后,可以在结果中再次指定单词进行过滤。当我们不确定自己使用的搭配是否准确时,可以利用此筛选功能进行校验,如果搜出的语料较丰富,就可以放心使用了,同时也可以根据此结果来拓展自己的表述方式,积累更多表达。
此功能还支持拓展探索更多的近义词表述,以丰富内容,避免重复,但同时也需要注意其结果不一定都准确,需要自己进一步筛选。当此处数值设置得越大,所得的词与设定的关键词关联性就越小。
第四个是当前搜索条件的细节展示,如图表明我们目前搜索展示的是 maintenir 这个动词的结果,在实际体验过程中并没有太大用处:
第五个板块是数据的可视化功能,如图所示,可以看到刚才的多列搭配信息被聚合到了一张饼图上,我们可以设置饼图的参数,例如在上面显示搭配词语数量的多少,选用哪些搭配关系,生成的图片可以进行下载:
下图为饼图的局部说明,以 shop 的搜索结果为例:
➊ 搭配离圆心的距离代表了其典型性程度。例如:repair shop比antique shop更具典型性;
➋ 圆圈大小代表了该搭配的频率。例如:gift shop比bike shop更高频;
➌ 圆圈的颜色表示它们所属的语法关系(主语、宾语、修饰成分等);
➍ 饼图上每个部分大小表示搜索结果中不同语法关系之间的比例大小。
以上就是对 Sketch Engine 第一个板块的探索啦,剩余的板块敬请期待!
参考资料:葛晓华.Sketch Engine的核心功能和应用前景[J].外语电化教学,2017(04):23-30.
Home Page – Create and search a text corpus
https://en.wikipedia.org/wiki/Sketch_Engine
特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。
原创编辑:周琳