OpenAI最近创造了历史,获得了66亿美元的投资,用于扩大其大型语言模型的规模——增加其大小、数据量和计算资源。同时,Anthropic的首席执行官表示,其公司已经在开发价值10亿美元的模型,并且很快将推出价值1000亿美元的模型。
然而,随着支出激增,发表在《自然》杂志上的一项新研究表明,随着规模的增长,LLM(large language model,简称LLM,大型语言模型)实际上可能变得不那么可靠。
来自瓦伦西亚理工大学的研究人员指出,问题的关键在于,假设LLM变得更强大,通过微调和过滤等策略能更好地对齐,从用户的角度来说它们更可靠了。或者换句话说:人们可能错误地认为,随着模型变得更强大,人类就可以预测它们的错误,从而调整查询。
然而,研究人员发现,人类认为困难的事情与LLM认为困难的事情并不一定相同。使用OpenAI的ChatGPT、Meta的Llama和BigScience的BLOOM的新旧模型,通过涉及加法、词汇、地理知识以及基础和高级科学问题的任务,研究人员测试了这些模型核心的数值、科学和知识技能。
总体而言,研究发现,在被人类评为难度较高的任务上,更新的、更大的大型语言模型表现得更好,但在被人类认为简单的任务上,这些模型仍远远达不到完美,它们在任何情况下都是不完美的。而且,由于较新的LLM主要在高难度实例上有所改进,这拉大了人类认为困难的事情与LLM完成的事情之间的差距。
IBM的发明大师Bishwaranjan Bhattacharjee表示,与其问更大的LLM是否表现得更好,我们应该问:“你能快速核实一个模型吗?”然而,问题在于,人类不擅长发现模型所犯的错误,即使可以说“我不确定”,人们仍常误判模型的错误输出为正确。
“对于较新的LLM,错误显著增加,因为它们现在很少避免回答超出其能力范围的问题。”论文的合著者周乐鑫说,“更大的问题在于这些较新的LLM非常自信地提供不正确的回答。”在没有深厚专业知识的领域中使用LLM,人们可能会对其可靠性产生一种错误的安全感,因为他们无法轻易发现错误。这些发现表明,人类并不具备充当这些模型可靠监督者的能力。
LLM生命周期
鉴于LLM的局限性和高昂成本,一些专家认为企业将从更大的模型开始,然后选择更具针对性的、适合的模型。LLM可以满足广泛的需求,提供最大的可选性,帮助公司在刚起步时开展使用AI的商业案例。随着企业专注于最具战略意义的用例,他们可以优化模型,创建更小、更精确且更具成本效益的语言模型,以满足其特定需求。
在最近的《Mixture of Experts》节目中,IBM watsonx的产品管理副总裁Edward Calvesbert说道,“大型语言模型就像瑞士军刀,它给你很大的灵活性,但最终,你会使用适合的工具来完成工作。”
(机器翻译,轻度译后编辑,仅供参考。)
编辑:李旭媛
审校:章坚