了解稀疏自编码器、GPT-4 和 Claude 3：深入的技术探索

稀疏性惩罚：在损失函数中添加一个惩罚非稀疏激活的项。这通常是通过在隐层激活中添加 L1 正则化项来实现的： Lₛₚₐᵣₛₑ=λ∑|hⱼ| 其中 hⱼ是第 j 个隐藏单元的激活，λ是正则化参数。
KL 发散：通过最小化隐藏单元平均激活与一个小目标值 ρ之间的 Kullback-Leibler (KL) 发散来增强稀疏性： Lₖₗ = ∑ (ρ log(ρ / ρ̂ⱼ) + (1-ρ) log((1-ρ) / (1-ⱼ)ρ̂ⱼ）），其中 ρ̂ⱼ 是隐藏单元 j 在训练数据中的平均激活度。
稀疏性比例：设置一个超参数，以确定激活所需的稀疏程度。这可以通过在训练过程中直接限制激活来实现，以保持一定比例的活跃神经元。

综合损失函数

训练稀疏自动编码器的总体损失函数包括重建损失和稀疏性惩罚： Lₜₒₜₐₗ= L( x, x̂) +λLₛₚₐᵣₛₑ

通过使用这些技术，稀疏自动编码器可以学习到高效且有意义的数据表示，使其成为各种机器学习任务的重要工具。

稀疏自动编码器的重要性

稀疏自编码器能够从未标明的数据中学习有用的特征，这对异常检测、去噪和降维等任务尤为重要。在处理高维数据时，自编码器尤其有用，因为它们可以学习捕捉数据最重要方面的低维表示。此外，稀疏自编码器还可用于深度神经网络的预训练，为权重提供良好的初始化，并有可能提高监督学习任务的性能。

了解 GPT-4

GPT-4 由 OpenAI 开发，是基于转换器架构的大规模语言模型。它在其前身 GPT-2 和 GPT-3 的成功基础上，加入了更多参数和训练数据，从而提高了性能和功能。

GPT-4 的主要功能

可扩展性：GPT-4 比以前的模型拥有更多的参数，使其能够捕捉数据中更复杂的模式和细微差别。
通用性：它可以执行广泛的自然语言处理 (NLP) 任务，包括文本生成、翻译、摘要和问题解答。
可解释模式：研究人员已经开发出从 GPT-4 中提取可解释模式的方法，这有助于了解该模型是如何生成回复的。

理解大规模语言模型的挑战

尽管像 GPT-4 这样的大规模语言模型具有令人印象深刻的能力，但它们在可解释性方面也面临着巨大的挑战。这些模型的复杂性使得人们很难理解它们是如何做出决定和生成输出结果的。研究人员一直致力于开发解释这些模型内部运作的方法，旨在提高透明度和可信度。

将稀疏自动编码器与 GPT-4 相结合

稀疏自动编码器的扩展和评估 – 开放人工智能

理解和解释大规模语言模型的一种很有前景的方法是使用稀疏自动编码器。通过在 GPT-4 等模型的激活上训练稀疏自动编码器，研究人员可以提取可解释的特征。研究人员可以提取可解释的特征，从而深入了解模型的行为。

提取可解释的特征

最近的进步使得稀疏自动编码器能够处理 GPT-4 等大型模型中存在的大量特征。这些特征可以捕捉模型行为的各个方面，包括

概念理解：响应特定概念的特征，例如 “法律文本 “或 “DNA 序列”。
行为模式：影响模型行为的特征，如 “偏见 “或 “欺骗”。

稀疏自动编码器的训练方法

稀疏自动编码器的训练包括几个步骤：

规范化：对模型激活进行预处理，以确保它们具有单位规范。
编码器和解码器设计：构建编码器和解码器网络，分别将激活映射到稀疏的潜在表示和重建原始激活。
稀疏性约束：在损失函数中引入稀疏性约束，以鼓励稀疏激活。
训练：使用重建损失和稀疏性惩罚相结合的方法训练自动编码器。

案例研究：将稀疏自动编码器扩展到 GPT-4

研究人员已经成功地在上训练了稀疏自动编码器。 GPT-4 活动，发现了大量可解释的特征。例如，他们发现了与 “人性缺陷”、”价格上涨 “和 “反问 “等概念相关的特征。这些特征为了解 GPT-4 如何处理信息和生成反应提供了宝贵的见解。

举例说明：人类不完美特征

从 GPT-4 中提取的特征之一与人类不完美的概念有关。当文本讨论到人类的缺陷或不完美时，这一特征就会被激活。通过分析这一特征的激活情况，研究人员可以更深入地了解 GPT-4 如何感知和处理这些概念。

对人工智能安全性和可信度的影响

从大规模语言模型中提取可解释特征的能力对人工智能的安全性和可信度具有重要意义。通过了解这些模型的内部机制，研究人员可以找出潜在的偏差、漏洞和需要改进的地方。这些知识可用于开发更安全、更可靠的人工智能系统。

在线探索稀疏自动编码器特征

对于那些有兴趣探索稀疏自动编码器提取的特征的人，OpenAI 在提供了一个交互式工具。稀疏自动编码器查看器. 该工具允许用户深入研究在 GPT-4 和 GPT-2 SMALL 等模型中识别出的特征的复杂细节。该查看器提供了一个全面的界面，可用于检查特定特征、特征激活以及特征出现的背景。

如何使用稀疏自动编码器查看器

访问查看器：导航至稀疏自动编码器查看器.
选择模型：选择您有兴趣探索的模型（例如，GPT-4 或 GPT-2 SMALL）。
探索特征：浏览稀疏自动编码器提取的特征列表。点击单个特征可查看其激活和出现的上下文。
分析激活：使用可视化工具分析选定特征的激活。了解这些特征如何影响模型的输出。
识别模式：寻找揭示模型如何处理信息和生成响应的模式和见解。

了解Claude 3：见解和解释

Claude 3，人类学的生产模型 Claude 3 “是基于转换器的语言模型在可解释性扩展方面取得的重大进展。通过稀疏自动编码器的应用，Anthropic 的可解释性团队成功地从 Claude 3 中提取了高质量的特征。这些特征揭示了模型的抽象理解和潜在的安全问题。在此，我们将深入探讨所使用的方法和研究的主要发现。

稀疏自编码器及其扩展

稀疏自编码器（SAE）在破译Claude 3模型的激活状态方面发挥了关键作用。一般方法是利用线性变换和 ReLU 非线性，将模型的激活状态分解为可解释的特征。这种方法之前已被证明能在较小的模型上有效工作，而挑战在于将其扩展到Claude 3这么大的模型上。

我们在 Claude 3 上训练了三种不同的 SAE，它们的特征数量各不相同：分别为 100 万、400 万和 3400 万。尽管计算量很大，但这些 SAE 仍能解释模型的很大一部分变异，平均每个标记只有不到 300 个特征处于活动状态。所使用的缩放法则指导了训练，确保在给定的计算预算内实现最佳性能。

多样而抽象的特征

从Claude 3中提取的特征涵盖了广泛的概念，包括名人、国家、城市甚至代码类型签名。这些特征高度抽象，通常是多语言和多模态的，并能在具体和抽象的参照物之间进行概括。例如，有些特征既能被文本激活，也能被图像激活，这表明不同模式下对概念的理解都很深刻。

与安全相关的特征

本研究的一个重要方面是确定可能与安全相关的特征。这些特征包括与安全漏洞、偏见、撒谎、欺骗、谄媚以及生物武器等危险内容相关的特征。虽然这些特征的存在并不意味着该模型本质上会采取有害行动，但它们的存在凸显了需要进一步调查的潜在风险。

方法和结果

该方法包括对模型激活进行归一化处理，然后使用稀疏自动编码器将这些激活分解为特征方向的线性组合。训练包括最小化重构误差和通过 L1 正则化强制稀疏性。这种设置能够提取特征，将模型激活近似分解为可解释的部分。

结果表明，这些特征不仅可以解释，还能以可预测的方式影响模型行为。例如，夹住与金门大桥相关的特征，模型就会生成与大桥相关的文本，这表明特征与模型输出之间存在明确的联系。

从《Claude 3十四行诗》中提取高质量特征

评估特征可解释性

特征可解释性通过手动和自动方法进行评估。特异性是通过特征在相关语境中激活的可靠程度来衡量的，而对行为的影响则是通过干预特征激活并观察模型输出的变化来测试的。这些实验表明，特征的强激活对其目标概念具有高度特异性，并对模型行为产生显著影响。

未来方向和影响

将稀疏自动编码器扩展到Claude 3的成功为理解大型语言模型开辟了新的途径。它表明，类似的方法可以应用于更大的模型，从而有可能发现更复杂、更抽象的特征。此外，安全相关特征的识别强调了继续研究模型可解释性以降低潜在风险的重要性。

原文链接

（机器翻译，轻度译后编辑，仅供参考）

编辑：胡跃

Was it helpful ?

还有问题？我们能帮忙吗？