嘀嘀嘀!今日份热点追踪来报道啦!本次小编为大家带来“弱到强泛化”的热点资讯快来搬好小板凳一起了解吧~
未来超人类人工智能系统对齐(超级对齐)的一个核心挑战是,人类需要监督比自己聪明得多的人工智能系统。我们研究一个简单的类比:小模型可以监督大模型吗?我们的研究表明,可以使用 GPT-2 级模型来激发 GPT-4 的大部分能力(接近 GPT-3.5 级的性能),甚至可以正确地概括出小型模型无法解决的难题。这开辟了一个新的研究方向,使我们能够直接应对未来超人类模型对齐的核心挑战,同时在今天取得迭代的实证进展。
我们相信,超级智能(比人类聪明得多的人工智能)有可能在未来十年内开发出来。但我们仍然不知道如何对它进行可靠的引导和控制。要确保未来最先进的人工智能系统依然安全并造福人类,解决这个问题至关重要。
今年早些时候,我们成立了超级对齐团队,以解决超级智能对齐这一问题。今天,我们发布该团队的第一篇论文,介绍对超人类模型进行实证对齐的新研究方向。
目前的对齐方法,如基于人类反馈的强化学习(RLHF),都依赖于人类的监督。然而,未来的人工智能系统将能够做出极其复杂和富有创造性的行为,人类将很难对其进行可靠的监督。例如,超人类模型也许能编写数百万行新颖但具有潜在危险的计算机代码,即使是人类专家也很难理解这些代码。
相对于超人类人工智能模型,人类将成为“弱监督者”。这是 AGI 对齐面临的核心挑战:弱监督者如何才能信任并控制实质上更强大的模型?
为了在这一核心挑战上取得进展,我们提出了一个我们今天可以进行实证研究的类比:能否用一个较小的(能力较弱的)模型来监督一个较大的(能力较强的)模型?
在传统的机器学习(ML)中,人类监督比自己弱小的人工智能系统(图左)。
为了向超级智能看齐,人类将需要监督比自己更智能的人工智能系统(图中)。
我们今天无法直接研究这个问题,但我们可以研究一个简单的类比:小模型能否监督更大的模型(图右)?
我们可能不会天真地期望一个强模型比为其提供训练信号的弱监督者表现得更好,它可能只是学会了模仿弱监督者所犯的所有错误。另一方面,强大的预训练模型具有出色的原始能力:我们不需要从头开始教它们新任务,只需要激发它们的潜在知识。那么,关键问题是:强模型是否会根据弱监督者的基本意图进行泛化——即使对于弱监督者只能提供不完整或有缺陷的训练标签的难题,也能充分利用其全部能力来解决任务?
图表 = 运行时错误:无法加载模块
跨 NLP 基准的典型弱到强泛化:我们使用 GPT-2 级模型作为弱监督器,对 GPT-4 进行微调。
在许多情况下,我们都能大大提高泛化水平。我们采用一种简单的方法,鼓励强模型更加自信,包括在必要时自信地对弱监督者提出不同意见。当我们使用这种方法在 NLP 任务中用 GPT-2 级模型监督 GPT-4,得到的模型性能通常介于 GPT-3 和 GPT-3.5 之间。我们能够恢复 GPT-4 的大部分功能,只是监管力度要弱得多。
这种方法只是一种概念验证,有一些重要的局限性,例如,它仍然不能用于 ChatGPT 偏好数据。不过,我们也发现其他方法也具有生命力,如最佳早期停止和从小型到中型再到大型模型的步步引导。
总之,我们的研究结果表明:
(1) 朴素的人类监督,例如基于人类反馈的强化学习(RLHF),在没有进一步工作的情况下很难扩展到超人类模型,但 (2) 大幅提高弱到强泛化能力是可行的。
在我们目前的经验设置和超人类模型对齐的最终问题之间,仍然存在重要的非相似性。例如,未来的模型模仿弱人为错误可能比当前的强模型模仿当前的弱模型错误更容易,这可能会使未来的泛化更加困难。
尽管如此,我们相信我们的设置捕捉到了未来超人类模型对齐的一些关键难点,使我们今天就能开始在这个问题上取得实证性进展。未来前景光明的工作方向有很多,包括解决我们设置中的非相似性,开发更好的可扩展方法,以及增进我们对何时以及如何实现良好的弱到强泛化的科学理解。
我们相信,这是一个令人兴奋的机会,可以让机器学习研究界在对齐方面取得进展。为了启动该领域的更多研究,我们发布开源代码,以便大家现在就能开始进行弱到强泛化实验。
我们将针对研究生、学者和其他研究人员启动一项价值1000万美元的资助计划,对超人类人工智能对齐进行广泛研究。我们特别高兴能够支持与弱到强泛化相关的研究。
作者:Collin Burns等人
(原文网址:https://openai.com/research/weak-to-strong-generalization)
今天的热点追踪就到这里啦!
希望大家都有所收获呢!
后续内容敬请期待~
特别说明:本文内容选自openai官网,仅供学习交流使用,如有侵权请后台联系小编删除。
– END –
摘译编辑:唐蕊