先将内容复制粘贴进入一个txt文件,
之后再从txt内复制粘贴进入word文档,这样可以清除网页文字本身的格式。
但当前仍有大量空行,严重阻碍我们使用语料。此时有一个小窍门可以去除空行:通过替换^p^p为^p,即可去除空行。若文本较长,可能空行过多,建议点击“全部替换”按钮3次,基本可以确保去除所有空行。
中文语料准备完毕。要想获得英文语料,只需将上述过程重复一遍即可。
至此,准备工作已经完成。打开Abbyy Aligner。
注意软件页面分为左右两栏,左侧为源语言,右侧为目标语言,需要根据实际选择具体语种。此次源语言为中文,故选择Chinese Simplified,目标语言为英语,故选择English.
将先前准备好的中文语料粘贴至左侧栏,英文语料粘贴至右侧栏。
之后点击上方Align按钮即可实现自动对齐。
自动对齐可能出现错误,因此需要人工检查。如图出现空行,观察发现左侧中文多处人名应该并入同一格。选中之后点击上方按钮“Merge”即可。
之后出现多行空白,选中后点击”Delete”删除
校对无误后,点击上方“Export to TMX”即可导出为TMX格式文件。
以上面我们得到的TMX文件为例,使用Heartsome Tmx Editor打开该文件,之后便可以将其转换为其他格式。
点击上方“Convert TMX to”按钮,在弹窗中可以选择目标格式。以下便以docx格式为例。
之后便可以在word文档中打开中英文对照的语料了。
如果感觉表格形式不便使用,也可以转换成每句中英文对照。点击右上角“转换为文本
选择“段落标记”
即可得到逐句中英对照的word文档版
当然,也可以通过AI直接实现word文档之间中英对照的转换
1.CorpusWordParser(中文分词标注、英文分词)
该软件可以在北外语料库语言学的网站上下载。
下载后,打开可以看到该软件对各个词性标注的代码是什么。
将需要分词的文本输入,这是分词之前的文本。
这是分词后的文本,可以看出,该应用将句子拆成了多个字和单词,中间加上了空格。
2.Treetagger(英文标注)
需要注意的是,AntConc只能识别txt格式的文件。
1.词频
2.搭配
3.词丛
特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。
– END –
原创来源:北外CAT课程展示-张雨农 邓新元
编辑:李丹