人类的喜好和体验并不具有普遍性,人工智能聊天机器人也需要反映这一点。
即将出现的人工智能解决方案和相关聊天机器人可能缺乏服务国际用户群体所需的全球多样性。斯坦福大学的研究人员在最近的一项研究中指出,当今的许多大型语言模型都倾向于“以西方为中心的品味和价值观”。他们声称,试图与系统或聊天机器人的目标用户实现所谓的“对齐”往往是不够的。
正如斯坦福大学助理教授、斯坦福大学以人为中心的人工智能(HAI)组织成员杨迪一领导的研究人员在研究报告中所述,这并不是因为缺乏尝试。“在新的基于人工智能的聊天机器人的创造者可以向大众发布他们最新的应用程序之前,他们经常会将他们的模型与目标用户的各种意图和个人价值观相协调”。然而,实现这种协调的努力“可能会引入自身的偏见,从而影响聊天机器人响应的质量”。
从理论上讲,“对齐应该是普遍的,并能使大型语言模型对全球各地的各种用户,理想情况下对尽可能多的用户更有帮助”。然而,试图在不同地区调整数据集和大语言模型的标注人员可能会曲解这些工具。
从客户互动到智能助手,用于各种目的的人工智能聊天机器人不断激增,因此事关重大。据MarketsUS估计,到2033年,全球人工智能聊天机器人市场规模预计将接近670亿美元,与目前60多亿美元的规模相比,年增长率将达到26%。
报告作者详细介绍:“由于自动化客户支持服务需求的增加和人工智能技术的进步,人工智能聊天机器人市场正在经历快速增长”。“有趣的是,超过50%的企业预计每年在机器人和聊天机器人开发方面的投资将超过传统的移动应用程序开发”。
问题的关键在于,人工智能和聊天机器人目前对全球各种语言和社区的服务还很欠缺。英语指令或活动可能包含容易被误解的短语或习惯用语。
斯坦福大学的研究断言,大语言模型很可能基于其创造者的偏好,而这些创造者目前很可能都在英语国家。人类的偏好并不具有普遍性,大语言模型必须反映“其所代表的人群的社会背景导致语法、话题,甚至道德和伦理价值体系的变化”。
斯坦福大学的研究人员提出了以下建议,以提高人们对全球多样性的认识:
认识到语言模型的配准并不是一个放之四海而皆准的解决方案。“对齐程序对不同群体的影响是不同的”。
努力提高透明度。这“对于披露对齐大语言模型的设计决策至关重要。对齐的每一步都会增加复杂性和对最终用户的影响”。大多数人工编写的偏好数据集都不包括区域偏好标注人员的人口统计数据。“报告此类信息,以及关于该领域中提示或任务的决定,对于负责任地向不同用户群体传播已对齐的大语言模型至关重要”。
寻求多语言数据集。研究人员研究了语言模型中使用的Tülu数据集,其中 13%是非英语数据集。“然而,这种多语种数据在提取式质量保证的九种测试语言中带来了六种语言的性能提升,在阅读理解的九种语言中带来了全部语言的性能提升。许多语言都能从多语言数据中获益”。
与当地用户密切合作对于克服人工智能聊天机器人的文化或语言缺陷或失误也至关重要。“Anablock公司的软件工程师兼创始人Vuk Dukic在LinkedIn最近的一篇文章中写道:“与当地专家和母语人士合作对于确保真实和适当的适应性至关重要。”“要了解每个目标市场的细微差别,必须进行深入的文化研究。实施持续学习算法可以使聊天机器人随着时间的推移适应用户的互动和反馈。”
Dukic还敦促“在全面部署前对当地用户进行广泛测试,以帮助识别和解决文化方面的失误。”此外,“提供语言选择允许用户选择自己喜欢的语言和文化背景。”
(机器翻译,轻度译后编辑,仅供参考)
编辑:杜曼曼
审校:张媛媛