纠正机器翻译中的“男性化”现象

 

 
 
 
 

叮咚!新消息来啦!

本次为您推出以下资讯——

研究发现机器翻译带有“性别错误”

并且存在“有偏见”的训练数据

这具体是怎么一回事呢?

 

 

 

 
 
 
 
(图片来自slator官网)

尽管机器翻译(MT)的质量已取得显著进步,但性别偏见的问题仍有待解决。由于训练数据中存在偏差,自动翻译系统往往会出现性别错误

隶属于微软的Ranjita Naik、Spencer Rarrick与Vishal Chowdhary在2023年11月27日发表的一篇论文中强调,这些复杂的翻译系统往往会受到训练数据中固有的社会偏见影响,甚至加重这种影响

在2023年11月30日发表的另一篇论文中,来自肯佩伦智能技术研究所(Kempelen Institute of Intelligent Technologies)的研究人员Matúš Pikuliak、Andrea Hrckova、Stefan Oresko和Marián Šimko强调,这些偏见不仅会给个人用户带来潜在问题,还会影响使用这些翻译的下游系统。他们解释道:“人工智能系统使用有偏见的机器翻译系统所转换的数据进行训练,可能会学习这些机器翻译带有的偏见,即使源数据中并不存在这样的偏见。”

作者将这些偏见归因于性别刻板印象,强调对刻板印象进行定义并加以理解的重要性。皮库利亚克(Pikuliak)、赫尔科娃(Hrckova)、奥雷斯科(Oresko)和希姆科(Šimko)强调,世界各地存在众多不同文化的性别刻板印象,并指出以前的众多研究有所疏忽,把刻板印象作为单数实体问题加以对待。他们说:“以前的许多译作都没有考虑到这一点,而且把刻板印象这件事当作单数实体来处理。”

为了解决这个问题,Kempelen研究团队采用了一种更精细化的方法来研究“模型具体学到了哪些刻板印象以及这些刻板印象产生了多大影响”,他们还发布了GEST,这是用于衡量“英语译为某语言(X)”机器翻译系统中的性别刻板印象的一个新的数据集。

 
 
俯拾皆是的“男性化”现象

研究人员使用GEST评估了Amazon Translate、DeepL、Google Translate和NLLB200,揭示了“男性化”现象的普遍性Amazon Translate被认为是“最男性化的翻译系统”,其次是Google Translate

他们还观察到这些系统中存在类似的性别刻板化倾向,这表明它们可能是从“极相似的性别偏见源”中学习到的。作者表示,这些翻译系统“认为”女性集美丽、整洁、勤奋于一身,而男性则代表领导者、专业、粗犷以及强硬。

通过更细致地研究机器翻译系统的行为,作者建议采取有针对性的方法来解决具体问题,例如防止模型对女性进行性化。他们说:“相比于视性别偏见为一个宏大而模糊的问题,上述方法更易操作。”

解决性别偏见

微软的研究人员着眼于评估并解决机器翻译系统中的性别偏见问题。他们强调,机器翻译中的性别偏见问题不仅体现在性别模糊的句子上,还包括可以从上下文推断性别的情况,然而机翻译文与源文本中的性别信息却自相矛盾

为了解决这一问题,他们提出使用从训练语料库中派生的“性别平衡域内数据集”对基本模型进行微调,并引入了一种利用反事实数据生成方法的新型域自适应技术

这个过程涉及从基本模型训练语料库中选择与性别相关的语句,并通过创建性别互换版本生成反事实,特别关注包含专业名词阳性或阴性形式的语句。

作者强调了其方法的优势,指出它依赖于域内训练语料库的一个子集对数据生成进行微调,以避免在域适应过程中出现灾难性遗忘。他们强调其本质以数据为中心,不需要修改训练目标,也不需要额外的解码模型。此外,他们强调利用反事实数据生成技术,在模型训练期间提供动态、多样化的数据集。

增强准确性

使用为专业词汇量身定制的WinoMT测试集评估这种方法,结果表明,意大利语、西班牙语和法语的翻译准确性得到了显著提高。

他们说:“我们比意大利语、西班牙语和法语的基线准确率分别提高了19%、23%和21.6%[…],总体翻译质量保持平稳。”

作者最后强调了未来工作的潜在方向,包括扩展技术以解决非二元性别问题,以及改善对涉及多人的复杂句子的处理,“不同的实体在来源和目标中进行性别互换。”

 

好啦!本期内容就到这里了感觉又学到了不少呢!敬请期待后续内容吧~

特别说明:本文内容选自Slator官网,仅供学习交流使用,如有侵权请后台联系小编删除

– END –


摘译编辑:李春郁

推文编辑:李昔林

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注