技术应用 | 如何进行语料对齐?一文教你搞定
语料对齐方式主要有桌面版、在线版和CAT工具版。CAT工具版一般都只支持软件内部使用。本文以ABBYY Aligner桌面软件和Tmxmall在线工具为例。希望能够对大家有所帮助。
本文目录: (一)使用ABBYY Aligner 进行语料对齐 (二)使用Tmxmall在线对齐进行语料对齐
语料对齐是一种将双语文本在句子或段落级别上进行匹配的过程,以创建对照语料库。以下是简要的步骤和常见的语料对齐工具:
收集双语文本:获取两种语言的平行文本,如翻译后的书籍或文章。 预处理文本:对文本进行分句、去除噪音等预处理。 句子分割:将文本按句子进行分割。 初步对齐:使用算法(如Gale-Church算法)进行初步对齐,通过比较句子长度或关键字频率来完成。 人工校对:人工检查和修正错对齐的句子。 验证和评估:评估对齐的准确率和召回率,并根据需要进行调整。 构建对齐语料库:将对齐后的双语文本保存为对齐语料库。
使用ABBYY Aligner 进行语料对齐
1.1分别导入中英文档进行对齐,并设置好语言,如图1-1所示。 图1-1 在ABBYY Aligner中选择语种及导入文档
1.2 如果导入的双语语料如果存在错漏现象,可以直接双击文本进行简单的添加修改;
1.3 点击Align(或“对齐”)(或快捷键”F5″)对两个文本进行分句对齐。
对齐结果如图1-2所示,并未一一对齐,其中系统认为可能存在问题的字段会高亮显示。
图1-2 在ABBYY Aligner中进行句段对齐
1.4 ABBYY Aligner的语料分段处理效果图与工具功能介绍
选中需要合并的单元格,点击”Merge/合并”(或快捷键”Ctrl+M”)进行合并处理,选中需要删除的单元格,点击”Delete/删除”(或快捷键Ctrl+Del)进行删除,选中需要上移或下移的单元格,点击”Up/向上”或”Down/向下”进行上移或下移,处理结果如图1-3所示。
图1-3 ABBYY Aligner的语料分段处理效果图与工具功能介绍
1.5 ABBYY Aligner中双语文本段落对齐
该软件也支持双语文本进行”段落对齐”。在分别导入双语文本之后,如果需要进行段落对齐,需要我们在段落后面手动按下键盘”enter”键来插入分隔符,如图1-4所示。
接着可以按照以下步骤完成段落对齐:首先在最上方菜单栏处点击”Actions/操作”,然后点击”Align Paragraphs/对齐单元格”。或者在手动插入分隔符之后,直接使用快捷键”F8″。进行”段落对齐”之后的效果如图1-5所示。
图1-4 在ABBYY Aligner中插入分隔符
图1-5 在ABBYYAligner 中进行段落对齐的效果展示
1.6 最后一步,导出文件
检查完毕后,我们就可以点击”Export to TMX/导出到TMX”导出 .tmx格式文件,或者“导出为双语RTF(R)”导出 .rtf格式文件.语料对齐完毕。
使用Tmxmall在线对齐进行语料对齐
2.1 双文档对齐
2.1.1 导入文件
分别导入中英文档进行对齐,并设置好语言,如图2-1所示。 图2-1在 Tmxmall 在线对齐中导入双文档
2.2.2 添加修改
如果导入的双语语料存在错漏现象,可以直接双击文本进行简单的添加修改。
2.2.3 修改内容
按住ctrl或shift键,选取想要调整的首段和末端,通过工具栏的”上移”(Ctrl+↑)、”下移”(Ctrl+↓)、”合并”(Ctrl+M)、”拆分”(Ctrl+Enter)、”调换”(X)、”插入”(Ctrl+I)、”删除”(DELETE)等操作将双语文档段落数调整至一致,调整段落前如图2-2所示,双击中文“行23”调整结束后如图2-3所示。 图2-2 Tmxmall 在线对齐中未调整段落的示例 图2-4 在 EmEditor 中清除空行的结果
2.2.4 执行对齐
单击对齐,系统会自动执行句对齐,对齐成功如图2-5所示。 图2-5 在 Tmxmall 在线对齐中进行句对齐
2.2.5 导出
检查完毕后,导出文件,格式可选tmx、xlsx、docx 和 txt, 导出界面中源语言和目标语言可以调换,如图2-6所示。 图2-6 在 Tmxmall 在线对齐中导出文档
2.2 单文档对齐
2.2.1 导入
导入如图2-7所示的中英对照文档,并设置好语言,系统会根据语言自动生成左右对照文本,如图2-8所示。 图2-7 双语对照单文档
图2-8 在 Tmxmall 在线对齐中导入单文档
2.2.2 其他同双文档对齐步骤一样
特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。
– END –