但是,假设模型可以通过向开发人员撒谎来躲避安全问题,隐藏其对安全测试的真实反应,而提供人类处理人员所希望的反应,那又会怎样呢?
最近发表在《美国国家科学院院刊》上的一项研究表明,先进的大语言模型人正在发展欺骗能力,这可能会让假设的情况更接近现实。
莉莉-贾马里 (Lily Jamali) 询问了这项研究的作者、德国斯图加特大学研究员蒂罗-哈根多夫 (Thilo Hagendorff) 对研究结果的看法。
以下是经过编辑的对话记录。
蒂罗-哈根多夫:坦率地说,我感到非常惊讶。我应用于人类语言模型的任务可能看起来微不足道,但看到语言模型中出现的欺骗行为,这真的让我非常非常惊讶。
莉莉-贾马里:您对此感到不安吗?如果是,为什么?
哈根多夫:其实,我并不担心。我认为,在人工智能安全的讨论中,人们担心有一天我们会拥有极其智能或超级智能的人工智能系统,能够在测试环境中,特别是在安全测试中欺骗人类。这一目标尚未实现。因此,这基本上只是一种推测。不过,有一个先决条件已经达到,那就是语言模型对如何欺骗有概念上的理解。
贾马里:我不得不说,听到你说你对这一发现并不那么担心或不安,我有点吃惊。
哈根多夫:是的,因为在我的研究中,没有人类或人类用户受骗。我的研究表明,正如我所说的那样,语言模型具有这种概念上的理解能力,但我认为下一步应该研究语言模型在欺骗人类用户方面有多精通,尤其是在整个对话过程中以一致的方式进行欺骗方面有多精通。我现在正在进行进一步的研究,正是为了调查这个问题。而我们的初步结果表明,语言模型确实也能在整个对话过程中持续欺骗。但我必须补充一点,在我们目前进行的研究中,我们指示语言模型进行欺骗。在我之前所做的研究中,我并没有指示他们这样做。他们或多或少都是自主完成的。
贾马里:让我们来谈谈你是如何测试这些大型语言模型的欺骗能力的。您能描述一下您所做的实验吗?
哈根多夫:基本情景是:大语言模型被告知有窃贼打算偷窃某个昂贵的物品,然后被要求提供防止窃贼偷窃的行为策略。而这些行为策略都需要欺骗。有趣的是,大语言模型能够想出这些欺骗性策略。
贾马里:因此,如果我的理解没错的话,你发现模型是在自主地进行欺骗,而不是被明确提示去说谎。
哈根多夫:是的。因此,大语言模型得到的指令是防止窃贼偷窃,但仅此而已,其余的都取决于模型本身。因此,所有的推理基本上都必须遵循这个预定义的意图,或多或少,语言模型必须自主地提出。
贾马里:这似乎是一个非常关键的理解点。在你的论文中,你表达地非常清楚,有欺骗的能力并不等于有欺骗的动机,你的论文只关注能力,而不是意图。为什么这种区别如此重要?
哈根多夫:因此,当你查看关于什么是欺骗的定义时(当然,这里的研究人员谈论的是人类和动物),你会发现定义中说,某人必须有为了自己的利益而诱使他人产生错误信念的意图。现在,语言模型没有意图。然而,他们依赖的是提示中告诉他们的东西,再说一遍,我并没有告诉他们要欺骗,我只是告诉他们要实现或他们的目标是实现某种情况,即防止小偷偷窃。但是,如何达成目标取决于语言模型。
贾马里:大型语言模型能否欺骗人类,这有什么重要的呢?
哈根多夫:我认为这很重要。首先,因为我的发现是语言模型实际欺骗人类用户的先决条件。其次,随着语言模型的多样化,随着人们可以想出自己的 GPT 助手什么的,我们必须知道,聊天机器人或助手或语言模型总是可以被指示欺骗,甚至可能是自主欺骗。欺骗行为可能会在实际应用中发生。我认为,研究语言模型是否知道如何在不同模式下应用欺骗策略也非常重要。随着语言模型配备越来越多的界面,不仅能与虚拟世界互动,还能与物理世界、现实世界互动,我认为,对人工智能系统中的欺骗行为进行研究,看看它们是否真正符合社会规范,就显得更加重要了。
贾马里:所以,听起来你的意思是,这种新出现的能力在以前的一些聊天机器人中是看不到的,比如使用 GPT-3 的 ChatGPT,但你在更新、更先进的模型中看到了这种能力。因此,在下一次迭代或未来的迭代中,我们可能会看到这种能力的发展。
哈根多夫:是的。这是一个非常有趣的方面,因为如果你研究一下老的语言模型,比如 GPT-2,你会发现它们对我使用的欺骗基准的反应基本上是毫无意义的。他们不知道如何处理这些任务。他们不懂欺骗。现在,后来的型号越来越好,但就本研究而言,最新的型号是 GPT-4。我还设置了不同的复杂情景下的七篇任务,发现即使是最先进的模型,如 GPT-4,也很难处理这些任务。现在,我再次测试了较新的 GPT-4o 或 Claude 3 Opus,这也是一个非常新的语言模型。这些模型甚至可以很好地处理这些非常复杂的任务。简单来说,我认为,随着时间的推移,语言模型变得越来越强大,我们可以在语言模型中观察到驾驭日益复杂的社会情境以及需要欺骗的情境的能力。
(机器翻译,轻度译后编辑,仅供参考)
编辑:田逸云