在2024年7月18日的一篇论文中,来自法国国家数字科学与技术研究所Inria的Matthieu Futeral,Cordelia Schmid,Benoît Sagot和Rachel Bawden介绍了ZeroMMT,这是一种多模态机器翻译(MMT)的新方法,消除了对完全监督数据的依赖。
研究人员解释说,MMT集成了其他模式,如图像或视频,以增强基于文本的翻译,特别是在处理模糊文本时。他们指出,在MMT中,“主要目的是在待翻译文本出现歧义的情况下提供额外的信号”。
当前的MMT系统严重依赖于包含带有多语言字幕的图像的数据集,如Multi30K。然而,创建这样的数据集是昂贵的,并且限制了MMT向新语言的扩展,研究人员将其描述为“基本限制”。
ZeroMMT通过仅利用多模态英语数据解决了这一限制,从而绕过了对监督数据的需求。Matthieu Futeral告诉Slator,该方法采用了现有的纯文本翻译模型,利用图像中的视觉信息来改进翻译,是“解决这个问题的第一个零射击方法”。
研究人员说:“我们的目标是训练一个MMT模型,能够在不使用任何完全监督的数据的情况下,有效地使用图像来消除对比翻译的歧义,同时保持其翻译能力。”
具体来说,ZeroMMT迫使机器翻译系统使用图像中的视觉信息来更好地理解和翻译句子,特别是在文本本身可能含糊不清的情况下。为了实现这一点,使用了一种称为SigLIP的方法将图像转换为翻译系统可以处理的格式,然后将这些图像表示与文本集成在一起。此外,为了确保翻译保持准确和高质量,将ZeroMMT的输出与原始MT模型的输出进行比较,以便进行必要的调整。
迈向MMT的一步
研究人员在六种语言方向(英语到法语、捷克语、德语、阿拉伯语、俄语和汉语)上对ZeroMMT进行了标准基准测试和通勤测试,通勤是一种基于图像的英语句子消歧对比基准。他们将ZeroMMT与纯文本MT系统NLLB和知名的完全监督MT系统进行了比较。
他们发现,ZeroMMT可以利用图像来调整翻译,使其朝着正确的意思调整,实现与在完全监督数据上训练的最先进的MMT模型接近的消歧性能,只有在不需要图像进行准确翻译的情况下,性能才会有很小的下降。
研究人员强调,“这些结果表明,我们的方法能够保持良好的翻译性能,同时仍然能够利用视觉信息来消除歧义。”
他们的结论是,ZeroMMT是“朝着拥有涵盖更广泛语言集的MMT系统迈出的一步,而不必依赖于获取昂贵的训练数据。”
代码、数据和训练模型都可以在GitHub上公开访问。
(机器翻译,轻度译后编辑,仅供参考。)
编辑:陈驭格