在 2024 年 7 月 18 日的一篇论文中,来自法国国家数字科技研究所的 Matthieu Futeral、Cordelia Schmid、Benoît Sagot 和 Rachel Bawden 介绍了 ZeroMMT,这是一种新的多模态机器翻译(MMT)方法,无需依赖完全监督的数据。
研究人员解释说,多模态机器翻译整合了图像或视频等其他模式,以增强基于文本的翻译,尤其是在处理模棱两可的文本时。他们指出,在多模态机器翻译中,”主要目的是在待译文本出现歧义时提供额外的信号”。
目前的多模态机器翻译系统在很大程度上依赖于包含有多语言标题的图像的数据集,如 Multi30K。然而,创建这样的数据集耗资巨大,而且限制了多模态机器翻译向新语言的扩展,研究人员将其称为 “根本性的限制”。
ZeroMMT 只利用多模态英语数据来解决这一限制,从而绕过了对监督数据的需求。Matthieu Futeral 告诉 Slator:”所提出的方法调整了现有的纯文本翻译模型,利用图像中的视觉信息来改进翻译,是’第一种解决这一问题的零样本方法’。
“研究人员说:”我们的目标是在不使用任何完全监督数据的情况下,训练一个能够有效利用图像来消除对比翻译的多模态机器翻译模型,同时保持其翻译能力。
具体来说,ZeroMMT 迫使机器翻译系统利用图像中的视觉信息来更好地理解和翻译句子,尤其是在仅靠文本可能存在歧义的情况下。为此,我们采用了一种名为 SigLIP 的方法,将图像转换成翻译系统可以处理的格式,然后将这些图像表示法与文本整合在一起。此外,为了确保翻译的准确性和高质量,ZeroMMT 的输出结果会与原始机器翻译模型的输出结果进行比较,以便做出必要的调整。
迈向多模态机器翻译的一步
研究人员在六种语言方向(英语到法语、捷克语、德语、阿拉伯语、俄语和汉语)的标准基准和 CoMMuTE(一种基于图像的英语句子歧义对比基准)上对 ZeroMMT 进行了测试。他们将 ZeroMMT 与纯文本机器翻译系统 NLLB 和著名的完全监督多模态机器翻译系统进行了比较。
他们发现,ZeroMMT 可以利用图像来调整翻译,使其趋向于正确的含义,其消除歧义的性能接近于在完全监督数据上训练出来的最先进的多模态机器翻译模型,只有在不需要图像来实现准确翻译的情况下,性能才会有极小的下降。
研究人员强调说:”这些结果表明,我们的方法既能保持良好的翻译性能,又能利用视觉信息消除歧义”。
他们的结论是,ZeroMMT 是 “在无需依赖获取昂贵的训练数据的情况下,向拥有覆盖更广泛语种的多模态机器翻译系统迈出的一步”。
代码、数据和训练有素的模型可在GitHub 上公开访问。
(机器翻译,轻度译后编辑,仅供参考)
编辑:杨帆