2024年5月,研究人员强调了情感在人类交流中起到的关键作用,并推出了一个新数据集,旨在通过将情感上下文整合到翻译过程中来增强语音转文字和语音转语音翻译。
2024年7月,阿里巴巴将语音情感识别(SER)纳入其FunAudioLLM,以保留AI驱动的口译中的原始情感。
在此基础上,2024年8月6日,波尔多大学的查尔斯·布拉齐尔和让-吕克·鲁阿斯发表了一篇论文,展示了如何将情感上下文整合到大型语言模型(LLM)中,以调节翻译并提高质量。
他们认为,“用特定的情感来调整翻译会在翻译中使用合适的词汇。”
这项研究建立在作者之前的工作基础上,该工作首次探索了将机器翻译(MT)模型与情感信息相结合。他们的早期研究表明,向输入句子添加情感相关数据可以提高翻译质量。在这项最新研究中,Brazier 和 Rouas 通过用微调的 LLM 替换他们之前工作中使用的 MT 模型,将这一概念更进一步。
他们引入了一种管道,其中情绪——例如唤起、支配和效价——被嵌入到LLM提示中。他们使用SER模型从音频记录中提取情感维度,然后将其纳入LLM的输入提示中以指导翻译过程。
显著改进
为了测试这种方法,他们对五个用于英法翻译的大型语言模型进行了微调,并确定了表现最好的模型,Unbabel的TowerBase-7B-v0.1,以进行进一步的实验。对于每个输入句子,SER模型分析了相应的音频以自动估计其情感维度,然后将其包含在翻译提示中。
Brazier 和 Rous 比较了在每个输入提示中添加情感维度作为额外信息的情况下和不添加情感维度的情况下的翻译表现。
根据作者的说法,将情感数据整合到翻译过程中,与没有情感整合的相比,BLEU和COMET分数显著提高,尤其是在考虑唤醒度时。
TowerBase-7B-v0.1 模型在包含情感上下文时表现出最显著的性能提升,这表明结合情感上下文可以带来更准确和上下文适当的翻译,尤其是在情感起关键作用的场景中。
“将情感信息融入翻译过程似乎可以提高翻译质量,”Brazier和Rous说。他们还计划将他们的方法扩展到语音翻译。