2024年第一届SlatorCon Remote会议于3月20日举行,Cohere高级研究科学家Marzieh Fadaee发表了主题演讲,讨论了Aya项目的成果。(“Aya”一词源于特维语,象征着耐力和足智多谋。)
Aya代表了全球研究人员之间的合作努力,最终开发了一个涵盖101种不同语言的开源大语言模型(LLM)。通过Aya,Cohere还为多语言模型的教学微调创建了最大的数据集之一。Fadaee强调了人工智能包容性的重要性,强调需要弥合高资源和低资源语言之间的差距,以公平获得先进的人工智能技术。受以英语为中心的模型的局限性(特别是在翻译任务中)的推动,Aya项目旨在将人工智能技术扩展到英语以外的语言,实现大规模的多语性。
正如Fadaee解释的那样,这不仅涉及构建模型,还涉及认识到这些模型的基础(即它们建立在什么基础上)是用于训练的数据。
Fadaee告诉观众数据在训练多语言模型中有多重要。她概述了两个关键阶段:对大量未标记语料库进行预训练,以及用有监督的教学风格数据进行微调。然而,低资源语言的高质量指令微调数据很难获得。这种数据的缺乏促使Aya项目通过精心管理和扩充语言数据集来解决这一差距。
宝贵贡献
他们创建的数据集由三个部分组成:Aya数据集、Aya集合和Aya评估套件。Aya数据集是迄今为止最大的人工管理的多语言教学微调数据集,拥有65种语言的200,000多个高质量注释。根据Fadaee的说法,虽然与其他自动生成的数据集相比,20万个示例似乎微不足道,但事实上,就语言覆盖率而言,它是这种格式中最大的数据集。她说,这使得它特别“有价值”,尤其是对于代表性有限的语言。
除了Aya数据集,他们还管理现有的数据集,将其转换为指令格式,然后将其从英语机器翻译成101种语言,以增加覆盖面。这个扩展的集合,包括114种语言的5.13亿个实例,就是Aya集合。
Fadaee强调了来自全球各地的贡献者的参与,包括来自低资源语言社区的大量贡献者,确保了Aya收藏中不同语言和文化细微差别的平衡表现。最后,Aya评估套件为评估跨各种任务和语言的多语言模型的有效性和可靠性提供了一个强大的框架。
大获全胜
Aya模型是通过使用Aya数据集的子集以及一些其他现有数据集对13B参数mT5模型进行微调而构建的。在与最强基线进行比较后,Fadaee强调了该模型在开放式发电任务中的卓越性能。“我们看到了Aya模式的巨大胜利,”她说。
此外,Fadaee概述了未来的研究方向,旨在平衡数据质量和数量,减少语言不平等,并增强多语言语言模型的整体状态。展望未来,Fadaee对Aya的潜在应用及其在促进人工智能技术的语言多样性和包容性方面的作用表示乐观。随着Aya数据集和Aya模型在开源许可下发布,Fadaee设想合作努力,以进一步推进多语言人工智能研究,并使世界各地的社区能够利用人工智能驱动的母语通信工具。最后,Fadaee邀请观众在“Aya Cohere游乐场”中注册使用22种语言的Aya。如果您错过了SlatorCon Remote 2024年3月的实时记录,录音将在适当的时候通过我们的专业和企业计划提供。
机器翻译,轻度译后编辑,仅供参考。
编辑:陈驭格