美国卡内基梅隆大学(CMU)的研究人员正在研究如何将ASR支持的语言从几百种增加到数千种。这项研究的关键动机之一是语言保护,因此把重点放在音频数据稀缺或没有音频数据的濒危语言。他们在Interspeech 2022大会上展示的ASR2K系统(此语音识别系统大约可识别2000种无音频的语言)有望取得成功,但到目前为止,其平均单词错误率为70%,这令其难以成为人工转录的强有力替代品。
坦白说,转录一种未知的语言对人类而言也是一项艰巨的任务,即便是受过语音转录专门训练的语言学家也概莫能外。用对应于语音或音素(phone)的一组符号来表示发音的方法对濒危语言有几个好处,这也是ASR2K对闻所未闻的语言进行解码的关键能力。
音素相对独立于语言,因此可以基于足够多样化的多语言音频数据来识别音素。这也正是ASR2K的尝试。由于语言学家在该领域数十年来的努力,音素也可以转化为对应的音位(phoneme),这是一种不同类型的语音单元,往往在书写系统中具有更紧密的对应关系。
ASR系统通常借助发音词典,使用从文本语料库训练得到的语言模型(LM)来将音位转换为可能的单词序列。对于最先进的ASR系统,语言模型的多样性和大小对转录准确性起着决定性作用。卡内基梅隆大学的研究人员还发现,他们能提供的目标语言文本数据越多,ASR2K的转录准确性就越高。
然而,对于濒危语言来说,文本数据同样很少,这些语言通常缺乏标准化的拼写体系。有些语言的书写系统缺乏键盘输入、字体和/或万国码(Unicode)的支持,许多语言纯粹是口语。虽然语音转录可在语言文献方面有一些用处,但如果没有语言模型的帮助,其准确性可能存疑,而缺乏单词边界(word boundary)也会使其难以阅读和分析。
幸运的是,研究揭示了对非书面语言的一些替代方案,结果令人鼓舞。可以训练语音到意图(speech-to-meaning)模型,让它去学习语音的语义表示,并与翻译后的文本或图像对应起来。通过巧妙避开标准化写作系统的需求,这种方法为口头语言开辟了一个充满可能性的语音技术世界。
原文网址 https://slator.com/speechless-recognition-can-ai-transcribe-language-its-never-heard/
特别说明:本文内容选自Slator官网,仅供学习交流使用,如有侵权请后台联系小编删除。
– END –
摘译编辑:李春郁