在2024年3月26日的一篇论文中,韩国科学技术院(KAIST)的Jeongsoo Choi、Se Jin Park、Minsu Kim和Yong Man Ro介绍了一种直接的视听到视听语音翻译(AV2AV)新框架,其中输入和输出都是多模态的。
具体来说,所提出的AV2AV框架将音频和视频语音作为输入,翻译语言内容,并生成音频和视频语音输出,为用户提供多模态体验。作者指出,“多模态(即音频和视频)语音翻译处于非常早期的阶段”,他们的工作是第一次探索直接AV2AV,其中输入和输出都是音频和视频。
主要优势是什么?
首先,AV2AV提供同步的嘴唇运动随着翻译的语音,模拟真实的面对面对话,提供更身临其境的对话体验。其次,它通过利用来自音频和视频语音的补充信息来增强口语翻译系统的鲁棒性,即使在存在噪声的情况下也能确保准确的翻译。此外,作者认为,与传统的4级联语音到视听语音翻译方法相比,AV2AV方法为视听语音翻译提供了一种更快、更经济的解决方案。传统的4级联语音到视听语音翻译方法涉及一个连续的自动语音识别(ASR),神经机器翻译(NMT),文本到语音转换合成(TTS)和音频驱动的会说话的人脸生成(TFG)过程。
作者强调,“在当今世界,每天都有数百万多媒体内容生成,并以不同的语言在全球范围内共享,对像拟议中的AV2AV这样的系统的需求预计会增加。”然而,由于缺乏用于训练的现有数据,开发直接AV2AV系统具有挑战性。虽然文本和语音数据集丰富,但并行视听语音数据很少。“由于没有可用的AV2AV翻译数据,在并行AV2AV数据设置中训练我们的模型是不可行的,”他们说。
他们解释说,应对这一挑战的一种方法是通过分别创建语音和视频来人工生成这些数据。然而,他们承认,由于精确复制嘴唇运动的限制,这种方法可能不会产生最佳结果。相反,他们证明了所提出的AV2AV框架可以使用纯音频数据进行训练,以促进AV语音之间的翻译。
此外,由于提出的AV2AV可以在不使用文本数据的情况下进行训练,作者指出,该系统可以服务于没有书写系统的语言。
“对像AV2AV这样的系统的需求预计会增加。”
AV2AV的有效性通过多对多语言翻译环境中的大量实验得到了验证。由于之前没有可以执行AV2AV的方法,因此作者将其性能与最先进的直接视听语音到语音翻译模型AV-TranSpeech进行了比较。结果表明,所提出的方法比AV-Transpeech“有效得多”,尤其是在低资源环境下。AV2AV系统的演示页面可在choijeongsoo.github.io/av2av找到。
机器翻译,轻度译后编辑,仅供参考。
编辑:陈驭格