




先将内容复制粘贴进入一个txt文件,

之后再从txt内复制粘贴进入word文档,这样可以清除网页文字本身的格式。

但当前仍有大量空行,严重阻碍我们使用语料。此时有一个小窍门可以去除空行:通过替换^p^p为^p,即可去除空行。若文本较长,可能空行过多,建议点击“全部替换”按钮3次,基本可以确保去除所有空行。


中文语料准备完毕。要想获得英文语料,只需将上述过程重复一遍即可。

至此,准备工作已经完成。打开Abbyy Aligner。

注意软件页面分为左右两栏,左侧为源语言,右侧为目标语言,需要根据实际选择具体语种。此次源语言为中文,故选择Chinese Simplified,目标语言为英语,故选择English.

将先前准备好的中文语料粘贴至左侧栏,英文语料粘贴至右侧栏。


之后点击上方Align按钮即可实现自动对齐。

自动对齐可能出现错误,因此需要人工检查。如图出现空行,观察发现左侧中文多处人名应该并入同一格。选中之后点击上方按钮“Merge”即可。

之后出现多行空白,选中后点击”Delete”删除

校对无误后,点击上方“Export to TMX”即可导出为TMX格式文件。


以上面我们得到的TMX文件为例,使用Heartsome Tmx Editor打开该文件,之后便可以将其转换为其他格式。

点击上方“Convert TMX to”按钮,在弹窗中可以选择目标格式。以下便以docx格式为例。


之后便可以在word文档中打开中英文对照的语料了。

如果感觉表格形式不便使用,也可以转换成每句中英文对照。点击右上角“转换为文本

选择“段落标记”

即可得到逐句中英对照的word文档版

当然,也可以通过AI直接实现word文档之间中英对照的转换




1.CorpusWordParser(中文分词标注、英文分词)
该软件可以在北外语料库语言学的网站上下载。

下载后,打开可以看到该软件对各个词性标注的代码是什么。

将需要分词的文本输入,这是分词之前的文本。

这是分词后的文本,可以看出,该应用将句子拆成了多个字和单词,中间加上了空格。

2.Treetagger(英文标注)





需要注意的是,AntConc只能识别txt格式的文件。
1.词频

2.搭配

3.词丛

特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。
– END –
原创来源:北外CAT课程展示-张雨农 邓新元
编辑:李丹