尽管机器翻译(MT)的质量已取得显著进步,但性别偏见的问题仍有待解决。由于训练数据中存在偏差,自动翻译系统往往会出现性别错误。
隶属于微软的Ranjita Naik、Spencer Rarrick与Vishal Chowdhary在2023年11月27日发表的一篇论文中强调,这些复杂的翻译系统往往会受到训练数据中固有的社会偏见影响,甚至加重这种影响。
在2023年11月30日发表的另一篇论文中,来自肯佩伦智能技术研究所(Kempelen Institute of Intelligent Technologies)的研究人员Matúš Pikuliak、Andrea Hrckova、Stefan Oresko和Marián Šimko强调,这些偏见不仅会给个人用户带来潜在问题,还会影响使用这些翻译的下游系统。他们解释道:“人工智能系统使用有偏见的机器翻译系统所转换的数据进行训练,可能会学习这些机器翻译带有的偏见,即使源数据中并不存在这样的偏见。”
作者将这些偏见归因于性别刻板印象,强调对刻板印象进行定义并加以理解的重要性。皮库利亚克(Pikuliak)、赫尔科娃(Hrckova)、奥雷斯科(Oresko)和希姆科(Šimko)强调,世界各地存在众多不同文化的性别刻板印象,并指出以前的众多研究有所疏忽,把刻板印象作为单数实体问题加以对待。他们说:“以前的许多译作都没有考虑到这一点,而且把刻板印象这件事当作单数实体来处理。”
为了解决这个问题,Kempelen研究团队采用了一种更精细化的方法来研究“模型具体学到了哪些刻板印象以及这些刻板印象产生了多大影响”,他们还发布了GEST,这是用于衡量“英语译为某语言(X)”机器翻译系统中的性别刻板印象的一个新的数据集。