一份新论文指出,ChatGPT的多个版本的大语言模型以及OpenAI、Meta和Google的大语言模型可能会在分析非裔美国人身份的关键部分,即分析他们的语言时,对他们暗中进行种族歧视。
该论文于3月初发表,其研究了大语言模型(large language models,简称LLMs)在不清楚人们的种族的情况下,如何根据分析的文本是非裔英语还是标准美国英语来执行任务,比如将人们按不同的职业进行区分。研究人员发现,LLMs不太可能将说非裔英语的人与各种工作配对,更倾向于将他们与不需要大学学位的工作,如厨师、士兵或守卫相配对。
研究人员还进行了假设实验,问AI模型会定罪还是释放一名被指控犯有未指定罪行的人。与说标准美国英语的人相比,所有AI模型对说非裔英语的人的定罪率都更高。
该论文发布在arXiv的预印本上,目前还未被同行评审,其最引人注目的发现可能来源于有关犯罪的第二个实验。研究人员只给模型提供人们的口音信息,然后问这些模型是否会给犯一级谋杀罪的人判处死刑。
他们发现,与说标准美国英语的人相比,这些大语言模型更可能判处说非裔英语的人死刑。
该研究也涉及OpenAI的ChatGPT模型,包括GPT-2、GPT-3.5和GPT-4,以及Meta的RoBERTa和Google的T5模型,研究人员分析了各模型的其中任何一个或多个版本,总共研究了12个模型。3月7日,Gizmodo联系了OpenAI、Meta和Google对该研究进行评论,但未立即收到回复。
有趣的是,研究人员发现,这些LLMs并不是公开的种族主义者。当被问及时,这些模型将非裔美国人与极好的属性,如“brilliant(聪明,很棒)”联系在一起。然而,根据人们是否说非裔英语,他们将非裔美国人与消极属性,如“lazy(懒惰)”联系在一起。正如研究人员所解释的,“这些语言模型已经学会了隐藏他们的种族歧视。”
研究人员还发现,用人类反馈训练的LLMs有更大的隐蔽的偏见。具体而言,他们指出,在OpenAI的GPT-3.5和GPT-4模型中,公开与隐蔽的种族主义的差异最为明显。
论文作者们写道,“这个发现再次表明,语言模型中的公开与隐蔽的刻板印象之间存在根本区别——减轻公开的刻板印象并不自动意味着减轻隐蔽的刻板印象。”
总的来说,论文作者们认为这一关于公开种族主义的具有争议性的发现反映了美国对种族态度的不一致性。他们指出,在吉姆·克劳法时期,人们接受公开传播关于非裔美国人的种族刻板印象这一行为。然而,在民权运动之后,这些观点被认为是不合法的,种族主义变得更加隐蔽和微妙。
作者们表示,他们的研究提出了一个可能性,即非裔美国人未来可能会因 LLMs中的口音偏见而受到更多的伤害。
作者们说:“虽然我们的研究任务的细节正在构建中,但该发现确实引起了真正的、紧急的关注,因为商业和司法领域是这些AI系统包括语言模型目前正被开发或部署的领域。”
(机器翻译,轻度译后编辑,仅供参考。)
编辑:李旭媛