语料库探索之语料对齐及分词赋码

语料对齐与转换
语料对齐-Abbyy Aligner
以常见的中英文双语演讲为例,如何将一篇中文语料和一篇英文语料合并为一份中英文对照的语料?我们先处理中文部分,随后英文部分的操作方式一模一样,只需将流程重复一遍即可。

先将内容复制粘贴进入一个txt文件,

之后再从txt内复制粘贴进入word文档,这样可以清除网页文字本身的格式。

但当前仍有大量空行,严重阻碍我们使用语料。此时有一个小窍门可以去除空行:通过替换^p^p为^p,即可去除空行。若文本较长,可能空行过多,建议点击“全部替换”按钮3次,基本可以确保去除所有空行。

中文语料准备完毕。要想获得英文语料,只需将上述过程重复一遍即可。

至此,准备工作已经完成。打开Abbyy Aligner。

注意软件页面分为左右两栏,左侧为源语言,右侧为目标语言,需要根据实际选择具体语种。此次源语言为中文,故选择Chinese Simplified,目标语言为英语,故选择English.

将先前准备好的中文语料粘贴至左侧栏,英文语料粘贴至右侧栏。

之后点击上方Align按钮即可实现自动对齐。

自动对齐可能出现错误,因此需要人工检查。如图出现空行,观察发现左侧中文多处人名应该并入同一格。选中之后点击上方按钮“Merge”即可。

之后出现多行空白,选中后点击”Delete”删除

校对无误后,点击上方“Export to TMX”即可导出为TMX格式文件。

语料转换-Heartsome Tmx Editor

以上面我们得到的TMX文件为例,使用Heartsome Tmx Editor打开该文件,之后便可以将其转换为其他格式。

点击上方“Convert TMX to”按钮,在弹窗中可以选择目标格式。以下便以docx格式为例。

之后便可以在word文档中打开中英文对照的语料了。

如果感觉表格形式不便使用,也可以转换成每句中英文对照。点击右上角“转换为文本

选择“段落标记”

即可得到逐句中英对照的word文档版

当然,也可以通过AI直接实现word文档之间中英对照的转换

 

 

语料库常用标注和检索工具
中英分词与赋码

1.CorpusWordParser(中文分词标注、英文分词)

该软件可以在北外语料库语言学的网站上下载。

 

下载后,打开可以看到该软件对各个词性标注的代码是什么。

 

将需要分词的文本输入,这是分词之前的文本。

 

这是分词后的文本,可以看出,该应用将句子拆成了多个字和单词,中间加上了空格。

这是赋码后的文本,之后我们可以根据之前所保存的代码,查看字或词的词性。

 

2.Treetagger(英文标注)

点击左上角的File即可导入文件,之后点击右侧的Run tagger。
即可得到分词与标注后的英文文本。

 

语料检索
可以使用到AntConc软件,该软件可以在AntConc官网进行下载。

 

需要注意的是,AntConc只能识别txt格式的文件。

1.词频

将2019年政府工作报告导入AntConc,点击Word后,点击下方Start,可以得到该文件的词频,不难看出,stable、economic、reform等词为2019年政府工作报告的重点。

 

2.搭配

点击Collocate,在左下角输出我们想要查询的单词,即可查看这个词在该文件中出现了那些搭配,右下角的word span也可以用来限定范围,例如5L5R就代表着查询单词前后五个单词的范围内。输入policy,我们可以看到prudent、proactive等搭配。

 

3.词丛

点击Clusters,在下方输入in,可以检索含有in的短语的出现频率。
特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。

– END –


原创来源:北外CAT课程展示-张雨农  邓新元

编辑:李丹

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注