在2024年7月29日的一篇论文中,苹果公司和南加州大学的研究人员介绍了一种解决机器翻译(MT)系统中性别偏见的新方法。
正如研究人员解释的那样,传统的机器翻译系统通常默认使用训练数据中统计上最普遍的性别形式,这可能导致翻译错误地表达了预期的含义,并强化了社会刻板印象。他们补充说,虽然语境有时有助于确定适当的性别,但许多情况下缺乏足够的语境线索,导致翻译中性别分配不正确。
为了解决这个问题,研究人员开发了一种方法来识别源文本中的性别歧义,并提供多种翻译选择,涵盖了歧义实体的所有可能的性别组合(男性和女性)。
研究人员表示:“我们的工作倡导并提出了一种解决方案,让用户能够从所有同样正确的翻译方案中进行选择。”
例如,“秘书生老板的气了。”包含秘书和老板两个实体,根据每个角色的性别,可以产生四种语法正确的西班牙语翻译。
研究人员强调,提供反映所有有效性别选择的多种翻译选择是一种“合理的方法”。
与在句子级别操作的现有方法不同,这种新方法在实体级别运行,允许对特定性别的引用进行更细致的处理。
该过程首先分析源句子,以识别具有模糊性别引用的实体(如名词或代词)。一旦确定,就会产生两种不同的翻译:一种使用阳性形式,另一种使用阴性形式。最后一步是将这些翻译集成到一个输出中,以保持目标语言的语法完整性。
为了生成这些翻译,可以使用微调的机器翻译模型或大语言模型(LLMs)。
与MT模型无缝集成
研究人员强调,当与适当的用户界面相结合时,他们的方法可以让翻译人员为每个实体选择正确的性别。他们解释说:“我们的关键技术贡献是一种新颖的半监督解决方案,用于生成与标准MT模型无缝集成的替代方案。”
他们补充说,这种解决方案不仅促进了具有精确性别控制的新翻译界面,而且还通过自动识别歧义并建议替代翻译来帮助人工翻译人员。
为了鼓励进一步的研究,研究人员开源了五种语言对的训练和测试数据集:英语>德语、西班牙语、法语、葡萄牙语、俄语和意大利语。
展望未来,他们计划探索其他无性别的源语言,如汉语、韩语和日语,以及它们所带来的独特挑战。他们还打算扩展他们的方法,包括非二元和性别中立的形式。
(机器翻译,轻度译后编辑,仅供参考。)
编辑:陈驭格