“全新”的大规模多语言机器翻译数据集面世

分享

其他推荐

在一篇发表于2024年3月20日的论文中,一个来自赫尔辛基大学爱丁堡大学奥斯陆大学、图尔库大学和Prompsit公司的团队引入了新的大规模多语言数据集,用于语言建模和机器翻译(MT)培训。

这个数据集被称为HPLT(高性能语言技术)语言资源,包括单语和双语语料库。研究人员强调,这个数据集是独一无二的,因为它是“全新的”,来源于拥有数百万免费书籍、电影、软件、音乐、网站等的非营利性数字图书馆Internet Archive,以及免费、开放的网络抓取数据库CommonCrawl。这些资源首次被如此大规模地用于创建多语言文本语料库。“HPLT语言资源是有史以来最大的开放文本语料库之一,为语言建模和机器翻译培训提供了很好的资源,”他们说。研究人员详细介绍了用于获取、管理和处理大型语料库的方法,这些方法依赖于开源软件工具和高性能计算。他们还制作了语料库、软件和工具,并在GitHub上公开提供,旨在为“研究界内外的其他人树立榜样”。单语收藏涵盖75种语言——高资源和低资源,但特别强调中低资源语言,总计52.5亿份文件。平行语料库以英语为中心,包括18个语言对,超过9600万对对齐的句子对。研究人员强调,数据集强调低资源语言,旨在提高平行数据对MT发展的可用性。此外,研究人员通过英语旋转他们现有的并行数据集,生成了一个合成数据集。这个合成数据集包含171个语言对和1.57亿个句子对。根据研究人员的说法,数据集还包含元数据,“最终用户可以利用这些元数据进行自己的过滤”。

首先是数据集,然后是模型

研究人员还发布了一些初步的MT模型和大型语言模型(LLMs),以及用于创建它们的培训管道。他们于2024年3月1日在推特发文称:“首先是数据集,然后是模型!”迄今为止,他们已经为16种语言对训练了机器翻译模型,但他们的目标是用HPLT并行数据第一版中包含的所有语言对建立翻译模型。最初的大型语言模型专注于芬兰语和挪威语,他们目前正在训练一个多语言北欧模型,并且已经开始训练一个大规模多语言欧洲模型家族,其数据集涵盖所有欧盟官方语言。所有模型都公开发布在Hugging Face以及HPLT项目网站,而培训代码可在HPLT GitHub存储库上访问。“我们的想法是,第三方应该能够使用这个存储库,连同我们的工具链,完全复制我们的模型建设,”他们解释说。

环境影响

研究人员还强调了为语言建模创建大型数据集所带来的巨大费用和环境影响。通过在开源平台上公开发布这些数据集,他们旨在通过促进重用而不是从头开始来减轻这种影响。此外,所有模型都在芬兰的LUMI超级计算机上训练,这一超级计算机目前是欧洲最快的,在全球排名第五,也是世界上第七环保的超级计算机,完全由可再生碳中和能源驱动。展望未来,他们计划扩大语言覆盖范围,用更多元数据增强数据集,并改进工具以提高语料库质量等。最后,他们还要求社区通过贡献原始数据源和处理过的语料库来加入他们的努力。这种合作努力将丰富数据,并使整个研究界受益。

注:高性能语言技术项目(HPLT)是一个由欧盟资助的为期3年的项目,始于2022年9月。

机器翻译,轻度译后编辑,仅供参考。 

编辑:陈驭格

原文链接

Was it helpful ?