CroissantLLM,一个可以实现高效翻译和简易部署的开源LLM

分享

其他推荐

2024年2月2日Centralesup é lec、卡内基梅隆大学的一组研究人员,以及Unbabel发布的论文介绍了CroissantLLM,一个开源的法语——英语大语言模型(LLM)在翻译任务上表现出强大的性能,并在消费级本地硬件上快速运行。

LLM已经接管了自然语言处理,专有模型领先,但像Llama和Mistral这样的开源模型正在迎头赶上。然而,这些模型的广泛采用面临着一些障碍,如不透明的数据收集和训练过程,英语以外的语言资源有限,以及高性能模型的高成本和高规模,阻碍了工业和研究的采用。

虽然许多模型表现出一定程度的多语言能力,但研究人员注意到,在英语不是主要训练语言的情况下,需要重大努力来训练模型。“我们的最终目标是建立一个不那么偏向英语表演或没有文化偏见的模型,”他们说。

CroissantLLM在多样化的法语语料库上接受训练,该语料库包括来自各种来源的3030亿个句对,如互联网数据、文学作品、演讲记录、法律和行政文档、科学文章和商业文档。这个语料库是在许可下分发的,允许不受限制地进行商业使用,并且经过严格的过滤、管理和重复数据删除。

根据研究人员的说法,这是“迄今为止发布的最大的多源法语语料库,质量足以用于语言建模。”

研究人员强调,“这项工作丰富了自然语言处理领域,脱离了以前以英语为中心的工作,加强了我们对语言模型中多语性的理解。”

出色的翻译能力

使用COMET-22和BLEU跨WMT14、TICO和FLORES等三个不同基准的指标评估翻译能力。

结果显示,该模型在其模型大小类别中表现出色,展示了“在翻译任务中非常强的性能”。具体来说,CroissantLLM在少数场景中超过了Mistral 7B和Llama 13B,甚至与专门翻译模型NLLB 1.3 b的性能相当,尽管后者是在明显更大的并行数据上训练的。

使用方便

尽管有13亿个参数,但与其他专有模型以及Llama和Mistral模型系列的较小版本相比,CroissantLLM的设计非常轻便。这旨在促进广泛采用,因为许多高性能的LLMs需要昂贵的专门基础设施进行推理,这在成本和部署方面带来了挑战。

该模型可在个人电脑和低端智能手机等本地硬件上高效运行,并可轻松部署在廉价的CPU服务器或低端GPU服务器上,使其可供广泛的应用程序和用户使用。这种可访问性为在各种真实场景中利用该模型开辟了新的可能性。

在致力于透明度和鼓励进一步的研究在LLMs,研究人员提供了访问代码库和大量的检查点训练数据分布,以及训练步骤,以及经过微调的聊天模型和强大的翻译模型。

机器翻译,轻度译后编辑,仅供参考。
编辑:张梓琦

原文链接

Was it helpful ?