在上一期对于 Sketch Engine 的探索中,我们了解了词汇素描板块(Word Sketch)的各项具体功能。有兴趣的小伙伴可以回顾一下
第一弹入口:技术应用丨Sketch Engine 探索第一弹来袭!
今天我们的探索主题将围绕 Sketch Engine 平台的自建语料库功能展开,首先需要注意,这个功能只对个人订阅用户开放,通过学校订购入口是看不到这个功能的。所以我们可以进入个人注册页面用自己的邮箱建立一个账号来免费体验30天,在此之后,我们可以用更换邮箱来注册的方式继续使用,在此放上注册链接:https://auth.sketchengine.eu/#register/form?form=trial
个人账户注册页面(图1)
1-个人账户注册页面
在输入基本信息后,平台会向注册邮箱发送一封含有账户密码的邮件,如果没收到的话请注意查看垃圾邮箱(图2) ⬇️
2-注册成功邮件
随后我们便进入到了熟悉的主界面,点击 MANAGE CORPUS (图3)进入语料库管理界面:
3-语料库管理
点击 New corpus ⬇️ (图4)
4-创建新语料库
接下来我们便可以开始创建自己的(单语 / 双语)语料库了,此处将以双语语料库作为演示(图5):
5-设置语料库基本参数
6-语料对齐选项
点进去之后看到了官方的温馨提示,似乎在告诉我们不要对结果抱有太大希望,随后选定源语言和目标语言,分别上传未对齐的文本就可以开始让它干活啦(图7):
7-双语语料上传界面
在这里我选择了自己已经对齐好的《三体II:黑暗森林》序章作为实验对象,中文约7k字,随后将中法文本段落合并后分别存入两个Word文件进行上传(图8):
8-实验文本投喂
接着便可以看到平台在努力对齐ing,文本量不大所以很快就完成了(图9),来让我们看看效果如何吧!
9–文本对齐完毕
之后我们便可以返回主界面,可以看到在语料库选择界面已经有了刚刚添加的两个库(图10):
10-建库成功
无论选择中文还是法语,都可以在主界面进行单语料库的分析。在进行中文语料库检索的时候需要注意,系统已经对中文进行自动分词,所以在此处搜索单独的字可能是没有结果的,例如搜索“蚁”显示0结果,但是搜索“褐蚁”则有27个结果(图11)。
11-针对“蚁”和“褐蚁”的搜索结果
而如果想要查看它的对齐情况则要直接进入 Parallel Concordance 板块进行任意搜索即可(图12):
12-对齐情况
可以看出,对齐情况并不理想,所以还是把预先对齐好的文本进行上传比较靠谱,我们重来一次,选择 Aligned documents 进行上传,可以看到已对齐的文本支持的上传格式有.tmx, .xliff 2.0+, .xIf 2.0+, .xls, .xlsx,其中比较熟悉的是 .tmx 和 表格格式,在此以表格做示范:
13-上传界面
我们只需要保证源语和译语句句对齐就可以直接上传了(图14):
14-双语语语料库(已对齐)上传过程
随后按照同样步骤进行检索,此处以“他”为检索词的结果如下(图15):
15-语对齐文本呈现
可以看见文本整齐地呈现了出来并且译文对应词还通过高亮被突出。接下来便可以按照自己的研究方向对语料库进行检索分析啦。
通过上面的语料库导入探索,我们可以总结一下关于 Sketch Engine这个平台在储存语料上面的优缺点:
优点:
l云端语料库,上传后可以随时随地在登陆账户后进行查询,摆脱软件以及操作平台限制;
l自己上传的语料库也可以享受全平台分析功能。
缺点:
l平台自动对中文语料进行分词,但又无法自定义词表,也无法对于分词有误的地方进行修正,导致检索受限。
l平台的双语文本对齐功能并不理想。
大家还有什么关于此平台的相关经验或者对于下一弹的内容建议,可以在评论区交流~