月活过亿ChatGPT,到底强在哪里?术语库建设、语料整理、数据分析……ChatGPT为何成为翻译行业新宠儿?面对AI时代的到来,身在局中的我们该如何立足?译者如何利用ChatGPT出一手好牌?语言学习者如何使用AI技术,走上学术研究前沿?
5月31日,“ChatGPT时代语料库与术语库建设与应用工作坊”第一讲开讲啦!本次课程邀请到了上海海事大学刘世界博士为我们分享ChatGPT辅助的语料数据处理与实践应用。接下来跟随小编一起回顾一下本节课的精彩内容吧!
本讲的主要内容包括:
1. ChatGPT技术概况与翻译研究
2. ChatGPT辅助下的语料数据加工处理流程
3. 国内外主流语料检索工具实操与技巧分享
4. ChatGPT辅助下的语料库建设与文本挖掘
在运用自动化采集算法或工具进行数据采集时,请大家严格遵守《中华人民共和国计算机信息系统安全保护条例》(1994)、《中华人民共和国网络安全法》(2016)、《中华人民共和国数据安全法》(2021)等有关网络数据采集行为、路径的法律法规,同时严格遵守科学研究伦理。
首先世界博士介绍了ChatGPT的技术概况、核心能力、在教育中的应用潜能、在翻译研究中的应用等知识。世界博士通过实际案例分析了ChatGPT目前在翻译研究过程中可以发挥哪些作用?事实证明ChatGPT在辅助翻译质量评估、辅助编程及代码解析、辅助语料库及术语库建设、辅助文献阅读、论文写作、规范调整及投稿、辅助语料批量处理与文本挖掘、辅助整理翻译实证研究数据等方面可以发挥卓越的作用,极大提高了翻译研究效率。
第二部分,世界博士按照语料采集、加工、检索应用的顺序为大家介绍了语料数据加工处理流程。首先语料采集部分分为自动化采集和人工采集,世界博士为大家分享了许多亲测好用自动化语料采集器,例如:八爪鱼采集器、火车头采集器、后裔采集器,TextForever等。人工采集语料也可以通过一些工具来协助我们做到批量文本处理与转换,例如文本处理可以使用ABBY FineReader、天若文字识别等OCR软件;格式转换可以使用Convertio、iLovePDF等做到不同格式间无痛切换。接下来,世界博士从语料清洗,语料对齐,格式转换,分词赋码四个方面介绍了语料加工流程,大家一定还要抽空自己探索哟~
世界博士为大家演示了几款国内外主流语料检索工具的操作步骤与技巧,例如在Lancsbox中如何进行智慧检索、多语料库对比以及什么是95%confidence limit;AntConc中,根据likelihood和effect统计出来的搭配词有何区别?在AntConc中,生成Keyword list时keyness如何解读?这些问题世界博士都一一为我们做出了详细的解答;接下来,世界博士还演示了wordSmith Tools的操作方法,相信看完这些详细的演示再进行复盘之后,大家一定能轻松上手这几款主流语料检索工具。
这一部分,世界博士主要着墨于如何在ChatGPT辅助下的语料库建设与文本挖掘,世界博士提到,我们可以借助ChatGPT生成合适的代码(适合代码小白)、实现对语料库文本的深度挖掘等。接下来世界学长使用python和R以垂直领域文本进行了案例演示,演示功能包括中文文本分词、词性赋码、词频统计、关键词提取、情感分析等。