生成式人工智能模型面临的挑战之一是,它们往往会产生幻觉。换句话说,它们会给出一个与事实不符的答案,但却自信满满,有时当你指出它们说的是错的时候,它们甚至会加倍努力。
“大型语言模型在本质上可能与训练数据固有的随机性和可变性不一致,这可能导致对类似提示做出不同的回答。人工智能协调公司Clarifa的营销高级副总裁克里斯-肯特(Chris Kent)说:”LLM的上下文窗口也很有限,这可能会在扩展对话中造成连贯性问题,因为它们缺乏真正的理解,而是依赖于数据中的模式。
检索增强生成(RAG)正受到越来越多的关注,因为当它应用于LLM时,可以帮助减少幻觉的发生,并提供一些其他的好处。
“RAG的目标是将本地数据或未用于训练实际LLM本身的数据与LLM相结合,从而减少LLM产生幻觉的几率,”iPaaS公司Boomi的架构和人工智能战略主管迈克-巴赫曼(Mike Bachman)说。
他解释说,LLM 通常是在非常通用的数据上进行训练的,而且往往是较旧的数据。 此外,由于训练这些模型需要几个月的时间,当模型准备就绪时,数据已经变得更加陈旧。
例如,免费版ChatGPT使用的是 GPT-3.5,它在2022年1月切断了训练数据,此时距今已有近28个月。使用GPT-4的付费版本能让你获得更多最新信息,但仍然只有截至2023年4月的信息。
“你错过了2023年4月以后发生的所有变化,”巴赫曼说。“在这种特殊情况下,这就是一整年,而一年中会发生很多事情,过去一年中也发生了很多事情。因此,RAG 能做的就是帮助修复已经发生变化的数据。”
举例来说,2010年Boomi被戴尔收购,但2021年戴尔剥离了该公司,现在 Boomi 又变成了私人所有。据巴赫曼称,GPT-3.5 Turbo的早期版本仍在引用戴尔Boomi,因此他们使用RAG为LLM提供有关该公司的最新知识,使其不再错误地引用戴尔Boomi。
RAG 还可用于利用私人公司数据增强模型,以提供个性化结果或支持特定用例。
Clarifai产品主管Pete Pacent说:“我认为,我们看到很多公司都在使用RAG,他们只是试图从根本上解决这样一个问题:如何让LLM在训练时间段或数据集之外访问实时信息或专有信息。”
例如,如果你正在为你的内部销售团队建立一个副驾驶员,你可以使用RAG向它提供最新的销售信息,这样当销售人员问“我们这个季度的业绩如何?”时,模型就可以实际回答最新的相关信息。
RAG 面临的挑战
既然RAG有这么多好处,为什么到目前为止还没有被更多人采用呢?Clarifai的 Kent认为,有几个因素在起作用。首先,RAG要发挥作用,需要访问多个不同的数据源,这可能相当困难,具体取决于用例。
RAG 对于简单的用例来说可能很容易,比如在文本文档中进行对话搜索,但如果将该用例应用于病人记录或财务数据,情况就会复杂得多。这时,你需要处理不同来源、敏感度、分类和访问级别的数据。
肯特解释说,“仅仅从不同来源调入数据也是不够的,还需要对数据进行索引,这就需要全面的系统和工作流程”。
“最后,可扩展性也是一个问题”,肯特说。在服务器或小型文件系统上扩展RAG解决方案可能很简单,但在整个组织内扩展则非常复杂和困难。“想想现在在非人工智能用例中用于数据和文件共享的复杂系统,以及为构建这些系统付出了多少努力,每个人又是如何争先恐后地进行调整和修改,以便与工作负载密集型 RAG 解决方案协同工作的。”
RAG 与微调
那么,RAG与微调有何不同?通过微调,你可以提供额外的信息来更新或完善LLM,但它仍然是一种静态模式。使用RAG,则是在LLM的基础上提供额外信息。肯特说:“它们通过整合实时数据检索来增强 LLM,提供更准确和最新/相关的回复”。
不过,对于面临上述挑战的公司来说,微调可能是更好的选择。一般来说,与运行RAG相比,微调模型对基础设施的要求较低。
“因此,性能与成本、准确性与简便性都是影响因素,”Kent说。“如果企业需要从不断变化的数据中获得动态响应,RAG通常是正确的方法。如果企业希望加快知识领域的速度,那么微调会更好。但我要重申,有无数的细微差别可能会改变这些建议”。
(机器翻译,轻度译后编辑,仅供参考)
编辑:刘慧