较的基准,并指出,“这些都是最先进的模型……你不必拥有高性能却不透明的的模型。”
企业数据差距
Cox 还提出了一个关于 LLM 的新观点,将 LLM 主要视为数据表示而不仅仅是对话工具。这种认识上的转变正值关键时刻,因为据估计,在未来 5 到 10 年内,LLM 将涵盖几乎所有公开信息。然而,Cox指出了一个重大差距:企业专有的“秘方”在很大程度上仍未体现在这些模型中。
为了解决这个问题,Cox提出了一项任务,即在基础模型中体现企业数据,从而释放其全部价值。虽然检索增强生成(retrieval-augmented generation,简称RAG)等技术很常见,但 Cox 认为这些技术在利用企业的独特知识、政策和专有信息方面存在不足。他认为,关键在于LLMs要真正理解并结合企业的具体情况。
Cox 为企业概述了一种潜在的三步方法:寻找一种开放、可信的基础模型,创建一种新的业务数据表示方式,然后进行部署、扩展和创造价值。他强调,尤其是对于受监管行业而言,谨慎选择基础模型至关重要。透明度是至关重要的,因为“企业在各种行业、受监管行业和其他行业中都需要一些属性,这些属性需要透明,而且在很多情况下,模型提供商不会告诉你他们的模型中包含哪些数据。”
挑战在于如何成功地将专有数据与基础模型相结合。为了实现这一目标,Cox 认为所选的基础模型必须满足几个标准。作为一项基本要求,它应该具有很高的性能。更重要的是,它必须是透明的,让企业能够充分了解其内容。显然,该模型还应开源,提供企业所需的灵活性和控制力。
向人工智能传授商业秘密
基于将企业数据与开源 LLM 相集成的愿景,Cox 介绍了 InstructLab,这是 IBM 与 Red Hat 之间的一个合作项目,它将这一理念付诸实践。VentureBeat 在今年 5 月首次报道了这一举措,它代表了 Cox 的企业人工智能应用三步法的具体实施。
InstructLab 解决了将企业专有知识纳入人工智能模型的难题。正如Cox所描述的那样,它提供了一种“真正开源的 LLM 贡献模式”。
该项目的方法围绕着世界知识和技能分类法展开,使用户能够精确地锁定模型增强的领域。这种结构化的方法有助于整合企业“秘诀”,而这正是Cox强调的当前LLMs所缺乏的东西。InstructLab 允许用户通过简单的示例或相关文档进行贡献,从而降低了领域专家参与模型定制的门槛。
InstructLab 使用“教师”模型生成合成训练数据,解决了将专有数据与基础模型混合的难题。这种创新方法在保持模型性能的同时,还增加了企业特有的功能。
值得注意的是,InstructLab 大大加速了模型更新周期。Cox 说,“我们甚至可以在一天内完成更新。”这与传统的“单一的一年发布周期”形成鲜明对比。这种灵活性使企业能够快速整合新信息,并使其人工智能模型适应不断变化的业务需求。
Cox的见解和IBM的InstructLab都指出了企业采用人工智能的转变。重点正在从通用的现成模型转向反映各公司独特专长的定制解决方案。随着这项技术的成熟,竞争优势很可能属于那些能最有效地将其机构知识转化为人工智能驱动的洞察力的企业。人工智能发展的下一步不仅仅是更智能的机器,而是能像人一样了解人类业务的机器。
(机器翻译,轻度译后编辑,仅供参考。)
编辑:李旭媛