7月16日,Hugging Face发布了SmolLM,这是一个全新的紧凑型语言模型系列,在性能上超越了微软、Meta和阿里巴巴Qwen的同类产品。这些模型为个人设备带来了先进的人工智能功能,同时不会牺牲性能或隐私。
SmolLM系列有三种——1.35亿、3.6亿和17亿个参数,旨在适应各种计算资源。这些模型虽然小,但它们在常识推理和世界知识的基准测试中表现出了卓越的性能。
小而强大:SmolLM如何挑战人工智能行业巨头
Hugging Face公司SmolLM的首席ML(machine learning,简称ML,机器学习)工程师Loubna Ben Allal在接受VentureBeat采访时强调了有针对性的小型模型的功能。她说:“就像我们不需要用破坏球在墙上钻洞一样,我们不需要为每项任务都建立大型基础模型。为特定任务设计的小型模型可以完成很多任务。”
最小的模型SmolLM-135M的性能超过了Meta的 MobileLM-125M,尽管用于其训练的token数量更少。SmolLM-360M超过了所有5亿参数以下的模型,包括Meta和Qwen的产品。旗舰模型SmolLM-1.7B在多个基准测试中击败了微软的Phi-1.5、Meta的MobileLM-1.5B和Qwen2-1.5B。
Hugging Face的与众不同之处在于,从数据整理到训练步骤,整个开发过程都是开源的。这种透明度符合公司对开源价值和可重复研究的承诺。
秘诀:高质量的数据整理推动了SmolLM的成功
模型的出色表现归功于精心策划的训练数据。SmolLM以Cosmo-Corpus为基础,其中包括Cosmopedia v2(合成教科书和故事)、Python-Edu(Python教育样本)和FineWeb-Edu(精心策划的教育网络内容)。
Ben Allal在接受VentureBeat采访时解释说:“我们在SmolLM上取得的性能表明,数据质量非常重要。我们开发了创新的方法,利用网络和合成数据,精心策划高质量的数据,从而创建出最好的小型模型。”
SmolLM的发布可能会对人工智能的可访问性和隐私产生重大影响。这些模型可以在手机和笔记本电脑等个人设备上运行,无需云计算,降低了成本和隐私问题。
人工智能民主化:SmolLM对可访问性和隐私的影响
Ben Allal强调了可访问性方面,她对VentureBeat说:“在手机和个人电脑上运行小型、高性能的模型,这让每个人都能使用人工智能。这些模型无偿释放了新的可能性,而且完全保护隐私,对环境的影响也更小。”
Hugging Face研究团队负责人Leandro von Werra在接受VentureBeat采访时强调了SmolLM的实际意义。他说:“这些小巧的模型为开发人员和终端用户开辟了一个充满可能性的世界。从个性化的自动完成功能到解析复杂的用户请求,SmolLM无需昂贵的GPU或云基础设施就能实现定制的人工智能应用。这将让每个人都能更方便地使用人工智能,并且能够保护隐私。”
像SmolLM这样功能强大、高效的小模型的开发代表了人工智能领域的重大转变。Hugging Face使先进的人工智能功能更容易获取并且保证隐私,解决了人们对人工智能的环境影响和数据隐私日益增长的担忧。
随着SmolLM模型、数据集和训练代码的发布,全球人工智能社区和开发人员现在可以探索、改进和发展这种创新的语言模型方法。正如Ben Allal在接受VentureBeat采访时所说:“我们希望其他人也能改进这一点!”
(机器翻译,轻度译后编辑,仅供参考。)
编辑:李旭媛