在2024年5月21日的一篇论文中,来自慕尼黑工业大学、京都大学、人工智能软件公司商汤科技和日本国家信息学研究所的研究人员介绍了MELD-ST,这是一个新的数据集,旨在改善语音到文本(S2TT)和语音到语音翻译(S2ST)通过将情感上下文整合到翻译过程中。
研究人员强调,情感在人类对话中起着“至关重要的作用”,在翻译中准确传达情感对于保持预期的强度和情感至关重要。他们提供了短语“哦,我的上帝!”根据其情感背景可以有不同的翻译。他们强调,表达惊讶、震惊或兴奋等情绪的短语需要根据情绪进行不同的翻译,才能在另一种文化中有意义。以往的研究主要在文本到文本翻译(T2TT)中探索情感感知翻译,很少关注语音翻译中的情感。通过MELD-ST,作者旨在填补语音翻译领域的这一空白,在该领域,情感上的细微差别往往得不到解决。
MELD-ST建立在现有的MELD(多模态情感线数据集)数据集上,通过添加电视剧《老友记》中相应的语音数据,该数据集以情感丰富的对话为特色。它包括英语到日语和英语到德语语言对的音频和字幕,每对都有10,000个用情感标签注释的话语。
根据研究人员的说法,MELD-ST数据集不同于其他数据集,因为:(1)它包括每个话语的情感标签,使其对实验和分析有价值;(2)它以情感丰富的环境中的行为言语为特征,使其适合于情感感知语音翻译研究的初步研究。
他们发现,在某些情况下,加入情感标签可以提高翻译性能,特别是对于S2TT任务,观察到了轻微的改善。他们说:“我们可以看到,经过微调后,翻译的质量普遍提高,加入情感标签会带来轻微的增强。”
用情感标签进行微调无济于事
然而,对于S2ST任务,使用情感标签进行微调并没有显著改善结果。“我们可以看到,微调SEAMLESSM4T模型可以改善ASR-BLEU结果。然而,用情感标签进行微调并没有帮助,”他们说。研究人员承认了几个限制,并指出未来的研究需要解决这些限制,并进一步开发情感感知语音翻译系统。对于未来的工作,他们建议训练将语音情感识别与翻译相结合的多任务模型,使用对话上下文来提高性能,并改进数据集以包括更自然的语音设置。MELD-ST数据集可在Hugging Face上获得,仅用于研究目的。
机器翻译,轻度译后编辑,仅供参考。
编辑:陈驭格