Raytheon BBN公司的研究人员Shannon Wotherspoon,William Hartmann和Matthew Snover于2024年3月发表了一篇论文,介绍了基于一组用于语音的汉语普通话音频训练数据的语料库,用于语音机器翻译(MT),并将匹配的文本翻译成英语。Raytheon BBN是Raytheon(RTX)集团旗下的一家研究和技术公司,该集团是总部位于美国剑桥的主要国防承包商。
研究人员解释说,这种配对源语言语音和目标语言文本数据集的目的是创建一个普通话——英语语料库,以训练端到端语音翻译系统,并改善级联系统。研究人员认为,由此产生的语料库“解决了资源的一个关键缺口,并强调了特定领域数据在推进语音翻译技术方面的重要性。”
雷神BBN公司的研究人员使用的过程包括从123.5小时的普通话电话交谈中获取数据。语音数据来自两个公共数据集:CallHome汉语普通话数据集与香港科技大学(HKUST)普通话电话语音数据集。
CallHome数据集包含242次母语为普通话的人之间的无脚本电话对话,而HKUST数据集包含中国大陆说普通话的人(不一定都是母语为普通话的人)之间1124次对话的90小时语音。数据被分成训练集、开发集和测试集,训练集是两个普通话数据集的混合。对于两个开发集和测试集,研究人员只使用了CallHome数据集对话。文本翻译成英语是由中英双语注释者在Appen使用抄本完成的。注释者无法访问对话的音频,而是使用周围的抄本文本作为上下文。对于最终产生的文本语料库,相同的语音话语只被翻译一次,而不管频率如何,注释者被指示“保留数据中存在的任何不流畅、犹豫或语码转换”。在他们的实验中,研究人员使用了自动语音识别(ASR)模型的输出,该模型使用了雷神BBN自己的语音处理平台“Sage”,该平台于2016年推出。该模型是在普通话会话电话语音训练数据集上训练的,此外还有来自HKUST数据集的137小时普通话ASR专用数据。
研究人员在他们的结果中报告了证据,表明通用模型可能足以满足某些领域的MT,但不足以满足其他领域的需求,并且它们在普通话会话语音领域的表现很差。
在将模型微调到研究人员创建的会话、特定领域语音训练集后,使用BLEU指标获得的MT分数比仅在通用模型上训练的结果提高了137%。
机器翻译,轻度译后编辑,仅供参考。
编辑:陈驭格