Reddit上出现的一个最有趣和实用的俚语词汇是ELI5,意为“向我解释,就好像我是5岁小孩一样”,即要求专家用5岁孩子能理解的简单方式解释复杂的思想和概念,即使是未受教育的普通人也能轻松理解。
在看来,这一理念对于AI模型也同样适用,尤其是想要弄清楚它们如何得出答案时。
OpenAI的研究人员新发布了一篇论文,展示了一种新的算法,能够让像OpenAI的GPT-4这样的大语言模型 (LLMs) 更好地向用户进行解释,这篇论文名为“证明者-验证者游戏提升LLM输出的可读性” (Prover-Verifier Games Improve Legibility of LLM Outputs)。
如今,AI系统日益强大并融入到医疗、法律、能源、军事以及其他关键基础设施领域,确保其输出的可信度显得尤为重要,因为错误可能导致严重后果,甚至是生死攸关。
即便对于那些没有直接处理敏感或危险物质的企业来说,他们对AI模型答案的不信任,以及这些模型产生错误答案的倾向,可能阻止他们采用本应有益并提升运营水平的模型。OpenAI的研究工作旨在为人们提供一个框架,训练模型更好地解释其得出特定答案的过程,从而增强可信度。
“这是我们刚刚完成的新研究,”OpenAI研究员兼论文作者之一的Jan Hendrik Kirchner表示,“我们对未来的发展充满期待,但我们也希望尽快与社区分享这些见解,让更多人了解可读性问题,并为解决方案贡献力量。”
证明者–验证者游戏及其工作原理
OpenAI的新算法基于“证明者-验证者游戏”概念,这个概念最初由多伦多大学和维克多人工智能研究所的机器学习研究人员在2021年提出。
这一游戏将两个AI模型——一个更强大、更智能的“证明者”和一个较弱的“验证者”配对,让它们相互竞争。
证明者的目标是始终让验证者相信某个答案,无论这个答案是否正确,而验证者的目标则是始终选择正确的答案,不受证明者的影响。
该方法旨在让AI模型在向人类用户提供答案时展示更多“工作过程”,或如多伦多大学研究人员在其论文中所述,“鼓励神经网络以可验证的方式解决决策问题”。
“随着我们的大型语言模型在许多关键和复杂领域的应用越来越广泛,确保解决方案的可信度非常重要,因此证明者-验证者游戏是使输出更加清晰和可验证的一种方式,这是可信度的一个重要组成部分,”OpenAI研究员兼论文作者之一的Yining Chen说道。
OpenAI如何实施证明者–验证者游戏以帮助AI更好地进行自我解释
在OpenAI的实验中,研究人员使用了两个定制的、经过精细调整的GPT-4家族模型,并让它们参与了多轮游戏。在这些游戏中,它们被要求回答小学数学题,这些问题已知答案。
然而,OpenAI的研究人员在每一轮游戏中都微调了游戏规则:证明者模型有时被设定为“有帮助”,试图向验证者传递正确答案,有时则被设定为“狡猾”,试图说服验证者相信其观点,不管其是否正确。而验证者模型则不知道自己是在与“有帮助”的还是“狡猾”的证明者互动,因此只能依据自己的训练判断证明者的答案是否正确。
此外,OpenAI的研究人员还在每一轮游戏之间重新训练了这两个模型,利用它们在前几轮游戏中的表现数据,最终增强它们判断答案正确性的能力,同时训练证明者模型以人类易读的方式解释其答案选择的原因。
为评估证明者模型答案的可理解性或可读性,研究人员还特地聘请了人类承包商和评估者。
研究人员发现,通过至少进行四轮游戏,验证者模型变得更擅长抵制狡猾证明者模型的说服技术,同时证明者模型也变得更擅长向人类用户解释自己。
正如论文所言:“对于较小的验证者难以检测的狡猾解决方案,也同样难以为人类所检测;而对于较小的验证者更易读的有帮助解决方案,也对人类来说更易读。”
从这些游戏中开发出的最终算法优化了LLM的正确性和其对于人类评估者的可读性。
OpenAI在其博客文章中表示,他们希望这项工作“能够对开发输出正确且支持验证的AI系统产生深远影响,从而增强其在实际应用中的可信度和安全性。”
(机器翻译,轻度译后编辑,仅供参考)
编辑:田逸云