Phi-3 Mini是一个38亿参数的语言模型,在3.3万亿个令牌上训练。这一数字高于微软在2023年12月介绍的Phi-2的27亿个参数。重点是推理,而不是尽可能多地挖掘训练模型。微软表示:“例如,某一天英超联赛的比赛结果可能是前沿模型的良好训练数据,但我们需要删除这些信息,以便为迷你模型留下更多的模型容量进行‘推理’。”
有针对性的方法意味着,虽然Phi-3可能没有其竞争对手的知识广度,但在推理方面,它至少一样好,如果不是更好的话,微软是这样声称的。在一个研究论文,微软指出,这使得它的小型语言模型“达到了高性能模型的水平,如GPT-3.5或Mixtral,只有3.8B的总参数(而Mixtral有45B的总参数)。”
该研究还指出,所使用的训练数据由“经过严格过滤的网络数据”组成…来自各种公开的互联网来源”和LLM生成的数据。用于训练LLMs的数据源是几起诉讼.我们被告知,Phi-3 Mini的小尺寸意味着它可以在智能手机上离线运行。研究人员表示,它可以占用大约1.8GB的内存,并在iPhone 14上离线试用,iPhone 14上有一个A16仿生芯片,在设备上运行。在论文中,研究人员展示了Phi-3 Mini写诗和建议在休斯顿做事情的截图。
研究人员还强调了专注于语言理解和推理的固有缺点。“这个模型根本没有能力存储太多的‘事实知识’,”这可以通过用搜索引擎来增加它在一定程度上得到缓解。然而,这将破坏能够离线运行它的意义。该语言目前主要限于英语,大多数LLMs固有的问题——幻觉、偏差放大和不适当内容的生成——也可以在Phi-3 Mini中找到。研究人员在论文中说:“要完全解决这些挑战,还有很多重要的工作要做。”相对而言,更大的型号也以Phi-3小型和Phi-3中型的形式公布,分别具有70亿和140亿个参数。Victor Botev,首席技术官兼联合创始人Iris.ai,告诉我们:“微软宣布Phi-3模型代表了人工智能发展的持续趋势。微软没有追逐越来越大的模型,而是开发具有更精心策划的数据和专业培训的工具。这允许改进性能和推理能力,而没有具有数万亿参数的模型的大量计算成本。实现这一承诺将意味着为寻求人工智能解决方案的企业拆除一个巨大的采用障碍。
“微软明智地超越了‘越大越好’的思维模式。对于广泛的商业和消费者人工智能应用,可行性和特异性比海量参数计数更重要。像Phi-3这样的模型清楚地表明,有了正确的数据和训练方法,先进的人工智能能力不需要建立更大的模型——这是成本质量比至关重要的企业的决定性因素。”