2024年3月26日,韩国科学技术高等研究院(KAIST)的崔正秀、朴世真、金敏秀和鲁永万在一篇论文中介绍了一种新颖的直接音频-视觉语音到音频-视觉语音翻译(AV2AV)框架,其中输入和输出均为多模态。
具体来说,所提出的AV2AV框架将音频和视觉语音作为输入,翻译语言内容,并生成音频和视觉语音输出,为用户提供多模态体验。
作者指出,“多模态(即音频和视觉)语音翻译处于非常早期阶段”,而他们的工作是第一个探索直接AV2AV的工作,其中输入和输出均为音频-视觉。
主要优势是什么?
首先,AV2AV提供了与翻译语音同步的唇部运动,模拟真实的面对面对话,提供更加沉浸式的对话体验。其次,它通过利用音频和视觉语音的互补信息增强了口语翻译系统的鲁棒性,确保即使在存在声学噪音的情况下也能进行准确的翻译。
此外,作者建议AV2AV方法相比传统的4阶段级联语音到音频-视觉语音翻译方法提供了更快速、更具成本效益的解决方案。传统方法涉及自动语音识别(ASR)、神经机器翻译(NMT)、文本到语音合成(TTS)和音频驱动的人脸生成(TFG)的顺序过程。
需求增加和效果提高
作者强调,“在当今世界,每天产生并在全球范围内以多种语言分享数以百万计的多媒体内容,对于像所提出的AV2AV这样的系统的需求预计将增加。”
然而,开发直接的AV2AV系统具有挑战性,因为缺乏用于训练的现有数据。尽管文本和语音数据集丰富,但音频-视觉语音数据平行性匮乏。“由于没有可用的AV2AV翻译数据,因此在平行的AV2AV数据设置中训练我们的模型是不可行的,”他们说道。
他们解释说,解决这一挑战的一种方法是通过分别创建语音和视频来人为地生成这些数据。然而,他们承认由于准确复制唇部运动的限制,这种方法可能无法产生最佳结果。相反,他们证明了所提出的AV2AV框架可以使用仅音频数据进行训练,以促进AV语音之间的翻译。
此外,由于所提出的AV2AV可以在不使用文本数据的情况下进行训练,作者指出该系统可以为没有书写系统的语言提供服务。
“对于像所提出的AV2AV这样的系统的需求预计将增加。”
AV2AV的有效性通过在多对多语言翻译设置中进行了大量实验证实。由于以前没有任何方法能够执行AV2AV,作者将其性能与最先进的直接音频-视觉语音到语音翻译模型AV-TranSpeech进行了比较。结果显示,所提出的方法比AV-Transpeech“更加有效”,尤其是在低资源设置中。
展示AV2AV系统的演示页面可在 choijeongsoo.github.io/av2av 上找到。
(机器翻译,轻度译后编辑,仅供参考)
编辑:刘煜珍