心法
1. “懒”
能用机器解决的绝不人工操作
2. 先删后改
我们在对有用文本批量操作前,先把不需要的删除了,比如页眉眉脚注释,不然批量处理后,没用的副文本会和正文本混合起来,加大后期人工处理的难度
3. 语料以txt优先,其次是其它电子格式,最后是自己扫书
txt全文复制粘贴和批量处理都很方便,没有多余格式,响应速度快,epub和pdf一般都有大量的换行符,还需要进行分段操作。人工ocr所有的缺点都有,文字识别错误,大量错误符号,大量换行符,大量无用文本,处理十分麻烦。所以一定要多花时间查找网上是否有现成语料,不到万不得已,不ocr书籍,要ocr书藉也要找一家扫描质量好的店铺。
4. 多观察
很多错误都是有共性的,如果我们能发现规律就能批量操作
现在以我最近制作的江泽民文选为例:
中文语料
政治类中文语料一般可以从下列渠道获取:
1. 中国共产党思想理论资源数据库
2. 中共党员网:https://www.12371.cn/
3. 学习强国
4. 上海外国语大学语料库研究院:
http://imate.cascorpus.com/
5. zlib
6. 各大电子书阅读平台,例如微信读书
7. 全国图书馆参考联盟
一开始我是选择在微信读书电脑端复制江选,后来发现复制有限制,且效率还是太低了,我便在zlib上找到了江选的txt版本,且格式完全正确,只要略微删除我们不需要的副文本即可。
英文语料
1. Zlibrary
2. Internet Archive
英文语料一般需要到外网找,上面两个网站包含了绝大多数的英文语料,我是在第二个网站找到了江选一二卷,且提供电子书在线预览,txt,epub等格式的下载。第三卷我是在淘宝上找了一家店铺进行ocr,提供word和可复制文字的pdf版本。
江选一的电子书
Internet Archieve提供多格式下载
江选三的word版本(效果并不好)
实战步骤
江选一二英文版的获取
当我们用Internet Archive下载txt文件的时候,点击下载并不是一个文件,而是一个网页且不能复制,如下图所示:
我们把链接输入到IDM下载,也下载失败,如下图所示:
我用简悦插件进入阅读模式,效果很好,但还是不能复制全文,我便用简悦自带的插件——“下载网页为md文件”:
进入简悦阅读模式的网页
下载好的江选一md文件
处理语料:
1. 处理无用文本
我们把md文件里的文本复制到word里,通过下图可以看到有大量的换行符,而且页眉页脚掺杂在其中
根据最开始的心法二先删后改,我们先删除页眉页脚。通过观察,我发现这个页眉的格式为“页码 SELECTED WORKS OF JIANG ZEMIN” 所以我们批量替换三次,请注意以下所有操作都需勾选使用通配符
[0-9] SELECTED WORKS OF JIANG ZEMIN
[0-9][0-9] SELECTED WORKS OF JIANG ZEMIN
[0-9][0-9][0-9] SELECTED WORKS OF JIANG ZEMIN
可是用了第三个公式0处替换,我就细细看了下文章, 发现因为ocr的问题,三位页码并不都识别成了数字,而是三个字符(数字、英文、符号),因此我们需要再改一下表达示??? SELECTED WORKS OF JIANG ZEMIN
2. 去除空行:
我们能发现文本有大量空行(两个换行符),所以我们只需把^p^p换为^p即可
3. 去除连接符-
我们可以看到文本里有大量的-,这些我们是不属要的,直接相连即可
我们需查-^p([a-zA-Z]) 换1
4. 合并段落
文本里有大量的换行符,我们需要合并为段落
我们只需查([a-zA-Z,])^p([a-zA-Z0-9″])
换1 2
这个表达示的意思是查找前面是大写字母或小写母,后面是小写字母或大写字母或数字或者”的换行符,然后去除换行符改为空格,前面后面保持不动
5. 修改符号
文本中有一些英文符号被识别为中文的,例如左右引号和句号,还有双引号会被识别为两个单引号,我们批量进行替换即可。
6. 修改错误
到此步,语料已经大概处理完毕了,剩下的就是我们用word自带的拼写检查,修改拼写错误,删除不需要的文本即可。
ocr文本步骤也是如上,就是修改拼写错误的时间会多很多。
语料对齐
1. 用雪人cat2023新建双语对齐项目,点击项目管理,点击导入文件,导入中英语料,如果需要句级对齐,记得勾选拆分段落中的句子,雪王cat的对齐性能十分强大,几十万字几秒钟就能对齐好。缺点是不能直接在软件内进一步修改,需要导出为csv文件,用excel打开进行近一步修改。
导入语料后点击确定就可自动对齐
耐心等待几十秒就能对齐完毕
点击导出选项,可以导出为csv进行修改
2.用abbyy aligner2.0导入语料对齐,注意语言要选好,不然无法对齐,可以直接粘贴导入,也可以用文件导入。alinger2对齐性能比较差,需要十几分钟,但好处在于可以直接在软件内就能进行修改。
方框处是abbyy aligner自带的处理选项
对齐后导出为tmx文件,用Heartsome TMX Editor转换为excel文件即可。
处理好的江选三中英双语语料库
还有一些很细节的问题,文章里并未全部写出,不同的语料处理方式不一样,若是您感兴趣想和我们一起交流,且想获得这些语料,软件等,可以加入我们翻译圈粉丝群获取。
特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。
– END –
原文作者:吴志雄
指导老师:朱华
推文编辑:张一孟