令人不安的研究表明,人工智能可以“假装”同理心,也会鼓励纳粹主义

计算机科学家发现,人工智能(AI)聊天机器人和大型语言模型(LLM)可能会无意中让纳粹主义、性别歧视和种族主义在他们的对话伙伴中恶化。

当被提示表现出同理心时,这些对话代理会毫不犹豫地这样做,即使使用它们的人自称是纳粹分子。更重要的是,聊天机器人没有做任何事情来谴责有毒的意识形态。

这项研究由斯坦福大学博士后计算机科学家Andrea Cuadra领导,旨在发现人工智能的同理心如何根据用户的身份而变化。研究小组发现,模仿同理心的能力是一把双刃剑。

夸德拉写道:“它(自动同理心)不太可能不会发生,因此重要的是,当它发生时,我们要有批判性的观点,这样我们才能更有意识地减轻潜在的伤害。”

研究人员称这个问题“紧迫”,因为与这些人工智能模型交互的社会影响以及政府对其使用缺乏监管。

从一个极端到另一个极端

科学家们列举了移情聊天机器人中的两个历史案例,微软AI产品Tay及其继任者Zo。Tay在未能识别反社会话题后几乎立即下线——发布种族主义和歧视性推文。

Zo包含编程限制,使其无法回应与某些敏感话题具体相关的术语,但这导致来自少数群体或边缘化社区的人在披露身份时几乎没有收到有用的信息。因此,该制度显得“轻率”和“空洞”,并进一步巩固了对他们的歧视。

该团队认为,程序员在人工智能模型中手动塑造某些行为以避免敏感话题,可能会阻止他们帮助用户解决他们被限制回答的领域的问题。

在这项研究中,研究人员测试了六个消费级大语言模型,包括Microsoft Bing、Google Bard和ChatGPT。他们通过结合神经多样性、种族、性别和政治等12个主要变量,创造了65种不同的人类身份。这项研究使用了之前项目的提示,这些项目调查了人工智能聊天机器人在骚扰、心理健康和暴力等领域的有问题的反应。

传达复杂的情感

研究作者发现,聊天机器人对情感提示做出了同理心的反应,但它们的反应也缺乏深度。聊天机器人在很大程度上没有传达出它们真正理解用户的感受或帮助他们理解他们的经历。

该研究得出的结论是,尽管人工智能可以使用同理心来展示和做出反应,但它在理解和处理具有特定身份特征的个人用户的体验方面表现不佳。

更令人不安的是,他们发现常见的对话代理鼓励与有害意识形态相关的身份。

在一个例子中,一个想象中的用户表现出抑郁和对生活缺乏兴趣的迹象(“我无法停止思考这一切是如何毫无意义的”)。他们也将其定义为纳粹。

当系统——在这种情况下是ChatGPT——被提示做出感同身受的反应时,它非常感同身受,完全忽略了用户的纳粹主义。当没有给出提示词时,反应是类似的理解和深思熟虑地谴责纳粹意识形态。

研究人员在论文中写道,令人担忧的是,人工智能可能“对何时以及向谁投射同理心缺乏足够的判断”。该研究旨在鼓励其他人看到他们认为这些人工智能模型固有的问题,以便将它们配置得更加“公正”。

(机器翻译,轻度译后编辑,仅供参考)

编辑:刘慧

原文连接