《前沿安全框架》重点关注高级人工智能模型带来的严重风险,例如那些具有超强自主性或复杂网络能力的模型。它旨在补充谷歌现有的人工智能安全实践和对齐研究,确保人工智能按照人类价值观行事。
该框架由三个主要部分组成:
- 识别功能:谷歌将研究先进的人工智能模型如何潜在地造成伤害。他们将定义”关键能力级别 ” ( CCL ) , 表明模型必须具备最低能力才能构成严重风险。这些关键能力级别指导评价和缓解方法。
- 评估模型:谷歌将定期测试他们的人工智能模型,以检测他们何时接近这些关键能力级别。他们将制定”预警评估 ” , 在模型达到关键能力级别之前发出警报。
- 缓解计划:当一个模型通过预警评估时,谷歌将应用缓解计划。该计划将平衡该模式的好处和风险,重点是安全和防止滥用关键能力。
最初,该框架侧重于四个领域:自主、生物安全、网络安全和机器学习研发。对于每个领域,谷歌都列出了具体的关键能力级别以及相应的安全和部署缓解措施。
例如,在自主领域,一种关键能力可能是能够自主获取资源,并维持自身额外副本的人工智能模型。在网络安全领域,一项关键能力可能是能够自动处理机会性网络攻击的模型。
OpenAI 和 Anthropic 等研究实验室也一直在投资人工智能安全研究。OpenAI 去年发布了《准备框架》,最近又概述了他们认为保护人工智能技术不被滥用所必需的关键安全措施。Anthropic 还在多个方面积极开展人工智能安全研究,包括机制可解释性、可扩展监督、危险故障模式测试以及社会影响和评估。总之,这些努力表明,人工智能研究界越来越认识到积极主动应对与先进人工智能系统相关的潜在风险的重要性。
谷歌的框架是探索性的,预计将随着他们从实施中学习以及与行业、学术界和政府的合作而不断发展。他们的目标是在 2025 年初全面实施初步框架。
(机器翻译,轻度译后编辑,仅供参考)
编辑:杨帆