在2023年11月14日发表的一篇论文中,来自慕尼黑路德维希马克西米利安大学提出了一种称为Imit-MNMT的新方法,该方法能够让现有的大型多语言神经机器翻译模型接纳新的语言,而重要的是,这一切并不会对模型原有语言对的翻译效果造成影响。
面对新语言和英语之间仅有的有限平行语料库,如何扩展多语言机器翻译模型成为了一大挑战,这种情况往往会导致已有语言翻译效果的下降。
Wen Lai、Viktor Hangya和Alexander Fraser解释说,全球约有 7,000 种语言,许多语言对因资源短缺而难以进行机器翻译(MT)模型的训练。
“探索如何升级现有的多语言神经机器翻译模型,这是一个不容忽视的问题,”他们强调。Imit-MNMT 方法通过模仿高水平机器翻译模型的行为,使用了一种新的学习技巧。尽管这种方法在机器人学习和计算机视觉等领域已广为应用,但在自然语言处理(NLP)领域,它的应用还相对较少。
此方法的核心是通过英语作为桥梁,创建一个仿造的多语言并行语料库,进而复制原始多语言神经机器翻译模型的输出模式。
“这是首次采用模仿学习技术对多语言神经机器翻译模型进行扩展的尝试,”研究人员强调。
避免“灾难性遗忘”
为防止训练过程中出现“灾难性遗忘”——一种新语言学习优先级超过原有语言对,导致原始语言能力丧失的问题——他们采取了一种创新措施,即运用独立的专家模型与学习模型分别进行伪语料库的创建和模型参数的更新。
更具体地说,原先的多语言神经机器翻译(MNMT)模型扮演了“专家”的角色,并且这个模型在整个过程中保持未更改。
不是直接用伪造的语料库来更新这位“专家”,研究者们选择培养一个全新的“学习者”模型。
这个学习者模型通过评估各种语言的相对重要性并模仿“专家”的翻译习惯,逐渐学会了在新语言和原始语言之间进行翻译。
作者指出,通过将“专家”和“学习者”分开,能有效降低噪声(比如,新语言伪语料库中的不准确或无关数据引入的干扰)的影响,并保证了新语言学习的有效性,同时不牺牲原有语言对的翻译性能。
“通过我们的实验,我们发现分别设置专家模型和学习模型这一策略,对防止新语言学习过程中发生的灾难性忘记及保证新语言学习效果极为关键,”研究人员说。
实验结果显示,Imit-MNMT 在没有引起灾难性遗忘的情况下,其翻译性能比基准测试更优。
“我们的方法在对比多个强基线系统后,证明了其卓越的翻译性能,”研究者补充道。
此外,该方法还有效应对了在大型多语言神经机器翻译(MNMT)模型中遇到的两大典型问题:一是复制问题,即模型倾向于将源语言中的某些词汇直接复制到目标语言中,而非进行准确翻译;二是目标语言偏差问题,即MNMT模型错误地将文本翻译成了非目标语言。
研究人员得出结论,Imit-MNMT 对于将现有的 MNMT 模型扩充至新语言领域,尤其是在训练资源受限的场合,是一个“充满希望的方案”。
机器翻译,轻度译后编辑,仅供参考。
编辑:严覃瑶