在 2024 年 7 月 29 日的一篇论文中,来自苹果公司和南加州大学的研究人员介绍了一种解决机器翻译(MT)系统中性别偏见的新方法。
像研究人员解释的那样,传统的 MT 系统通常默认使用训练数据中统计上最普遍的性别形式,这可能会导致译文歪曲原意,强化社会成见。他们补充说,虽然上下文有时有助于确定适当的性别,但许多情况下缺乏足够的上下文线索,导致翻译中的性别分配不正确。
为了解决这个问题,研究人员开发了一种方法,可以识别源文本中的性别歧义,并提供多种翻译选择,涵盖歧义实体的所有可能性别组合(男性和女性)。
“研究人员说:”我们的工作倡导并提出了一种解决方案,使用户能够从所有同样正确的翻译备选方案中进行选择。
例如,”The secretary was angry with the boss.”(秘书对老板很生气)这句话包含两个实体–秘书和老板,根据每个角色的性别,在西班牙语中可以有四种语法正确的翻译。
研究人员强调,提供反映所有有效性别选择的多种翻译选择是一种 “合理的方法”。
与在句子层面运行的现有方法不同,这种新方法在实体层面运行,可以更细致地处理特定性别的引用。
这一过程首先要分析源句,找出性别指向不明确的实体(如名词或代词)。一旦确定,就会创建两个独立的翻译:一个使用阳性形式,另一个使用阴性形式。最后一步是将这些翻译整合成一个输出结果,并保持目标语言的语法完整性。
要生成这些翻译,可以使用微调 MT 模型或大型语言模型(LLM)。
与 MT 模型无缝集成
研究人员强调,如果结合适当的用户界面,他们的方法可以让翻译人员为每个实体选择正确的性别。”他们解释说:”我们的主要技术贡献是一种新颖的半监督解决方案,用于生成与标准 MT 模型无缝集成的替代方案。
他们补充说,这一解决方案不仅有助于新的翻译界面实现精确的性别控制,还能通过自动识别歧义和建议替代译文来帮助人工翻译。
为了鼓励进一步的研究,研究人员开放了五对语言的训练和测试数据集:英语 > 德语、西班牙语、法语、葡萄牙语、俄语和意大利语。
展望未来,他们计划探索其他无性别源语言,如中文、韩语和日语,以及它们所带来的独特挑战。他们还致力于将其方法扩展到包括非二元和中性形式。