尽管大型语言模型是由人类创造的,但它们仍然相当神秘。推动我们当前人工智能繁荣的高辛烷值算法让观察它们的人无法从表面上理解其行为。这就是为什么人工智能在很大程度上被称为“黑匣子”(黑匣子,一种从外部难以理解的现象)。
人工智能行业顶级公司之一Anthropic最新发表的研究试图揭示人工智能算法行为中更令人困惑的方面。5月21日,Anthropic发表了一篇研究论文,旨在解释为什么其人工智能聊天机器人Claude选择生成关于某些主题的内容。
人工智能系统的建立大致类似于人脑——分层神经网络接收和处理信息,然后根据这些信息做出“决定”或预测。在大的数据子集上“训练”这些系统,使它们可以进行算法连接。然而,当人工智能系统根据它们的训练输出数据时,人类观察者并不总是知道算法是如何得出输出数据的。
这一谜团催生了人工智能“解释”领域,研究人员试图追踪机器决策的路径,以便他们能够理解其输出。在人工智能解释领域,“特征”指的是神经网络中激活的“神经元”的模式——实际上是算法可能会引用的概念。研究人员能够理解的神经网络中的“特征”越多,他们就越能理解某些输入如何触发网络来影响某些输出。
在一份关于其发现的备忘录中,Anthropic研究人员解释了他们如何使用一种被称为“字典学习”的过程来破译Claude神经网络的哪些部分映射到特定的概念。研究人员表示,使用这种方法,他们能够“通过观察哪些特征对特定输入做出反应,开始理解模型的行为,从而让我们深入了解模型如何做出给定反应的‘推理’”。
在《Wired》杂志的史蒂文·利维(Steven Levy)对Anthropic研究团队的采访中,工作人员解释了如何破译Claude的“大脑”。一旦他们想出了如何解密一个特征,就会引出其他特征:
一个让他们印象深刻的特征与金门大桥有关。他们绘制了一组神经元,当这些神经元一起放电时,表明Claude正在“思考”连接旧金山和马林县的巨大结构。此外,当类似的神经元组放电时,它们会唤起金门大桥附近的主题:恶魔岛、加州州长加文·纽森和以旧金山为背景的希区柯克电影《迷魂记》。总之,该团队识别了数百万个特征,犹如一种解码Claude神经网络的罗塞塔石碑。
应该指出的是,Anthropic和其他营利性公司一样,可能有某些与商业相关的动机来以这种方式撰写和发表其研究。也就是说,该团队的论文是公开的,你可以自己去阅读,并对他们的发现和方法做出自己的结论。
(机器翻译,轻度译后编辑,仅供参考。)
编辑:李旭媛