海内外学者共研古文机器翻译
第一届古代语言机器翻译研讨会ALT2023在中国澳门成功举办
2023年9月5日,第一届古代语言机器翻译研讨会(Ancient Language Translation workshop,ALT 2023)在中国澳门特别行政区成功举行。
研讨会由南京师范大学的李斌博士和以色列阿里尔大学的Shai Gordin博士共同组织,中国人工智能学会语言智能专委会、中国中文信息学会青年工作委员会、中国古籍保护协会古籍智能开发与利用专委会、江苏省人工智能学会自然语言处理专委会协办。作为机器翻译峰会MT-SUMMIT2023(https://mtsummit2023.scimeeting.cn/)的子会议,本届会议旨在推进世界古代语言机器翻译研究,通过评测竞赛和会议研讨,增进全世界古文研究者的交流,推动古代语言自然语言处理技术的发展。著名计算语言学家冯志伟教授和北京大学俞敬松教授应邀做主旨报告,清华大学黄昌宁教授、东北大学肖桐教授、南京师范大学陈小荷教授、曲维光教授等近百位学者线上参会,来自美国、英国等地的二十多位国内外学者线下参会。
本届会议的特色是首次对古代汉语和以楔形文字为书面形式的阿卡德和苏美尔文这三种古老的语言进行机器翻译国际评测,为参赛队提供了高质量的“古汉语-英语”“古汉语-现代汉语”“苏美尔语-英语”“阿卡德语-英语”四个双语语料库,和基于五亿字《四库全书》的Siku-Roberta预训练基座模型,最好的两支队伍华南理工大学和香港中文大学的翻译成绩超越了谷歌和百度翻译,切实推进了古文机器翻译研究与技术交流。
ALT2023包括两个评测任务:EvaHan2023与EvaCun2023。EvaHan致力于对古汉语智能处理技术进行评测。2022年,在法国马赛举办的EvaHan2022针对古代汉语分词和词性标注任务开展了技术评测,数十支队伍参加了评测,十四支队伍提交了结果,大大推动了古汉语分词和词性分析技术。今年的EvaHan2023,则专注于古代汉语到现代汉语和英语的机器翻译测评,由南京农业大学信息管理学院、南京理工大学经济管理学院、南京师范大学文学院、南京师范大学语言大数据与计算人文中心的王东波博士、沈思博士、李斌博士、叶文豪博士、刘浏博士、冯敏萱博士和许超博士等共同组织。测评所使用训练语料选自先秦典籍、二十四史以及《资治通鉴》的双语数据,其中“古汉语-现代汉语”30万句对,“古汉语-英语”5900句对,由国家社会科学基金重大项目“中国古代典籍跨语言知识库构建及应用研究”(项目编号:21&ZD331)课题组精加工而成,而测试语料选自江苏文库提供的《金楼子》和《后山谈丛》,共2000句,由南京农业大学孟凯博士、南京工业大学孙文龙博士和中国药科大学赵连振博士精加工而成。EvaHan2023共有22个参赛队伍报名,最终收到了9份翻译结果,收录了8份技术报告。
EvaCun是第一届楔形文字智能处理的评测竞赛,由美国加利福尼亚大学伯克利分校数据科学团队与阿里尔大学数字历史实验室共同承办。楔形文字是有记录以来人类历史上最早的文字系统之一,在过去的两个世纪,中东地区发现了数十万楔形文字的泥板,其中大多为苏美尔语和阿卡德语。EvaCun2023包括三个机器翻译任务——阿卡德语(楔形文字)翻译到英语、阿卡德语(字母转写)翻译到英语以及苏美尔语(转写)翻译到英语。“阿卡德语-英语”平行语料规模约为5万句对,“苏美尔语-英语”平行语料约为8000句对。可惜的是,由于懂得楔形文字的专家较少,该任务难度过大,国内外报名的多支参赛队仅有南京农业大学提交了翻译结果,BLEU值超过了30,但很遗憾错过了截止日期。
会议开幕式由南京师范大学文学院李斌博士主持,他介绍了ALT2023测评的背景、主要承办和参与人员、会议流程和时间安排,介绍了EvaCun和EvaHan的评测概况,宣布会议正式开幕。
教育部语言文字应用研究所、新疆大学冯志伟教授,作了题为“Significance of Ancient Language Translation(古代语言翻译的重要性)”的主旨报告。冯志伟教授是我国著名计算语言学家,精通五种外语、兼通语言学、数学和计算机科学,是我国最早从事自然语言处理和计算语言学研究的学者之一,在国内外出版著作30多部,发表论文400余篇,曾获2018年CCF、NLPCC杰出成就奖。冯志伟教授以其六十年学术经历,概述了机器翻译的发展历程,论证和强调了古汉语机器翻译对于中华民族传统文化“走出去”的重要意义。
会议第二个主旨报告由北京大学俞敬松教授主讲,题为“Research and Development Report on the Integrated Platform for Ancient Text Compilation and Research(古籍整理加工与出版研究平台的研发报告)”。俞敬松教授介绍了团队构建的古籍智能信息处理系统,对系统的标点、分词、机器翻译等功能进行了详细展示和讲解,可以为非计算机专业的人文学者提供便捷。
在两大评测任务的总结报告中,以色列阿里尔大学Digital Past Lab(数字历史实验室)主任Shai Gordin博士介绍了楔形文字机器翻译评测EvaCun的背景,讲述了阿卡德、苏美尔文的简要历史、数字化和双语语料库的构建过程,以及阿里尔大学在楔形文字机器翻译取得的进展,特别是他们在PNAS上发表的重要论文。对唯一提交结果的南京农业大学参赛队予以肯定,并宣布EvaCun评测将在明年继续举办。
南京农业大学王东波教授介绍了古汉语机器翻译评测EvaHan,包括测评语料、模式、参赛队伍及结果,对会议支持单位表示感谢。特别指出,从评测结果可以看出,古汉语翻译到现代汉语的效果明显好于翻译到英语,主要是训练数据量的差异造成的,建设“古汉语-英语”双语语料库是今后的工作重点。
接着,EvaHan2023的八支参赛队进行口头报告,北京大学、华南理工大学、香港中文大学、中国科学技术信息研究所、北京理工大学、南京大学、上海理工大学、南京中医药大学等8所高校与科研院所依次报告。在论文报告过程中,现场及线上参会学者与参赛选手进行了交流与探讨,产生了良好的反馈。其中,华南理工大学和香港中文大学在“古汉-现汉”赛道上,分别取得29.68和27.33的BLEU值,译文质量较好,都超过了百度的25.57(谷歌则不具备此翻译功能)。但是在“古汉-英语”赛道上,各参赛队和百度、谷歌均未能超过13的BLEU值,古汉语翻译为英语仍是一个难题。
EvaHan2023颁奖环节由李斌博士主持。以色列阿里尔大学数字历史实验室主任Shai Gordin宣布获得三等奖的参赛队伍:中国科学技术信息研究所团队,由邓宁远领奖;北京理工大学团队,由曾理领奖。李斌博士宣布获得二等奖的参赛队伍:香港中文大学团队,由Stutart M. McManus领奖;北京大学团队,由林立领奖。冯志伟教授宣布获得一等奖的参赛队伍:华南理工大学团队,由曹家欢领奖。
华南理工大学团队获一等奖,曹家欢同学领奖
香港中文大学团队获二等奖,Stutart M. McManus博士领奖
北京大学团队获得二等奖,林立同学线上领奖
中信所和北理工团队获得三等奖,邓宁远和曾理在线上领奖
在闭幕式上,冯志伟教授致辞,肯定了本届会议的重要价值,古汉语机器翻译大有可为,能够对古籍的活化利用、继承和弘扬中华优秀传统文化与对外文化交流传播起到非常重要的作用。作为会议的发起人和组织者,Shai Gordin博士表示古代语言机器翻译难度大,文化价值高,需要更多的学者共同努力推进。李斌博士对程序委员会、线上线下参会学者和志愿者表示了感谢,同时感谢了江苏凤凰传媒承担的《江苏文库》项目对评测的赞助和支持,他们为EvaHan提供了测试数据底本,为技术测试提供了保障。
李斌博士最后对研讨会进行了总结,当前古代语言机器翻译的最大困境在于,高质量古代语言数据资源严重稀缺,而且非常依赖古文专家的专业知识。本届会议的最大贡献在于,建设、发布和共享了大规模高质量的多语种古代语言语料库,有力推进了古文机器翻译系统的开发。李斌博士代表会议发出呼吁,要在古代语言资源和知识库建设方面加大投入,培养古代语言和计算机科学的通才,推动多语言古文机器翻译的开发与应用。
古代语言是研究古代历史文化的基础,推动古代语言机器翻译的发展,是推动古籍活化利用的重要途径。随着人工智能技术的突破式发展,古今文明的距离将不断缩小,优秀传统文化的传承创新大有可为。
特别说明:本文仅用于学术交流,如有侵权请后台联系小编删除。