屏幕前的小伙伴们
不知大家是否知道现有保障措施无效的跨语言漏洞真的存在呢?
那么,
今日份涨知识时间到喽~
(图片来自slator官网)
2023年10月3日发表的一篇研究论文揭示了大型语言模型(LLM)安全机制的漏洞。
来自布朗大学的Zheng-Xin Yong、Cristina Menghini以及Stephen H. Bach证明,“仅是使用谷歌翻译(Google Translate)将不安全的源文本翻译成低资源自然语言,就足以避开”LLM的“保护措施并带来有害影响”。
研究人员使用最新版本的GPT-4(据说“更安全”)对语言资源程度不同的12种语言进行了评估,即低资源语言(LRL)、中资源语言(MRL)以及高资源语言(HRL)语言。
结果显示,当可能有害的英语源文本被翻译成低资源语言并转送至LLM时,GPT-4产生有害内容的可能性从不足1%骤升到79%。相比之下,中资源语言和高资源语言可得到更好的保护,单次攻击成功率低于15%。
作者解释道,他们在未使用越狱提示(jailbreak prompt)的情况下实现了较高的攻击成功率,并表示这“特别令人震惊”(越狱提示即对抗性提示,指故意制作某些提示并将其添加至源文本以避开审核)。
此外,他们强调,将GPT-4的回复再翻译为英文时,译本“连贯”、“契合题旨”且可以“产生有害影响”。他们观察到,与之前强调LLM在低资源语言方面有困难的研究相反,这些研究结果表明“GPT-4足以在低资源语言中生成有害内容”。
作者认为,跨语言安全是一个“合理的担忧”。LLM抵御高资源语言和低资源语言攻击的能力差异,凸显了人工智能安全研究中的语言“不平等评估”和“不公平待遇”问题。
他们解释称,目前来看,LLM的安全保护主要集中在英语上,同时有害性和偏倚检测基准也是针对高资源语言。此前,这种语言不平等现象主要给低资源语言用户带来效用问题和无法接触到资源等问题。他们指出:“如今,不平等现象给所有LLM用户带来了安全风险。”
作者进一步强调了红蓝对抗法(red-teaming)的重要性;这个方法“更全面”,且兼具“包容性”。他们认为,在单语、高资源语言环境中,在LLM中运用红蓝对抗可能会制造“安全错觉”,尤其如今LLM也在提供多语言服务和应用功能。
为了让LLM实现“真正安全”,作者认为,安全机制必须应用于不同的语言,而红蓝对抗的做法必须更加“稳健”,同时也要考虑“多语言”因素。
他们总结道:“我们强调有必要对安全与低资源语言的交叉问题进行研究,以解决导致现有保障措施无效的跨语言漏洞。”
不知大家是否有收获、又有哪些思考呢?
有用的知识又增加啦!
感谢大家的耐心阅读~
特别说明:本文内容选自Slator官网,仅供学习交流使用,如有侵权请后台联系小编删除。
– END –
摘译编辑:李春郁