“无声的”识别:AI能否转录它从未听过的语言?

分享

其他推荐

简而言之,可以转录。但由于单词错误率(WER )上升了约70%,我们可能会想知道何必如此大费周章。
事实证明,原因有多方面,包括商业、学术、人道主义等原因,且极具说服力。联合国预测,语言多样性在今后将面临考验,因此宣布了“国际土著语言十年”议程,我们现在已经进入该议程的第二年。在当今全世界使用的7000多种语言中,近一半被认为是濒危语言,对其所不可或缺的文化和知识系统构成威胁。
几个世纪以来,全球化和殖民化一直在加速语言的消亡。令人担忧的是,日益数字化的世界也只迎合了世界上极少数语言,更加速了这一进程。
然而,将人机协作集中于少数主要语言的技术也可以用于语言保护及振兴工作。自动语音识别(ASR)是用于记载语言的得力工具,特别是在缺乏人工转录资源的情况下,可以促进语言的学习和保护。
传统上,ASR系统采用目标语言的配对音频和转录数据进行训练。尽管Meta的XLS-R系统Google的通用语音模型(Universal Speech Model)等在多语言语音识别上取得了最新突破,通过对大量未标记数据进行预训练来促进对低资源语言的保护,但它们仍然对标记语音的ASR进行了微调。OpenAI的Whisper系统其英语转录的准确性可与人类相媲美,采用多语言配对数据进行预训练。
那么没有标记语音数据的语言呢?又或是根本没有语音数据的语言?
一项艰巨的任务

美国卡内基梅隆大学(CMU)的研究人员正在研究如何将ASR支持的语言从几百种增加到数千种。这项研究的关键动机之一是语言保护,因此把重点放在音频数据稀缺或没有音频数据的濒危语言。他们在Interspeech 2022大会上展示的ASR2K系统(此语音识别系统大约可识别2000种无音频的语言)有望取得成功,但到目前为止,其平均单词错误率为70%,这令其难以成为人工转录的强有力替代品。

坦白说,转录一种未知的语言对人类而言也是一项艰巨的任务,即便是受过语音转录专门训练的语言学家也概莫能外。用对应于语音或音素(phone)的一组符号来表示发音的方法对濒危语言有几个好处,这也是ASR2K对闻所未闻的语言进行解码的关键能力。

音素相对独立于语言,因此可以基于足够多样化的多语言音频数据来识别音素。这也正是ASR2K的尝试。由于语言学家在该领域数十年来的努力,音素也可以转化为对应的音位(phoneme),这是一种不同类型的语音单元,往往在书写系统中具有更紧密的对应关系。

ASR系统通常借助发音词典,使用从文本语料库训练得到的语言模型(LM)来将音位转换为可能的单词序列。对于最先进的ASR系统,语言模型的多样性和大小对转录准确性起着决定性作用。卡内基梅隆大学的研究人员还发现,他们能提供的目标语言文本数据越多,ASR2K的转录准确性就越高。

然而,对于濒危语言来说,文本数据同样很少,这些语言通常缺乏标准化的拼写体系。有些语言的书写系统缺乏键盘输入、字体和/或万国码(Unicode)的支持,许多语言纯粹是口语。虽然语音转录可在语言文献方面有一些用处,但如果没有语言模型的帮助,其准确性可能存疑,而缺乏单词边界(word boundary)也会使其难以阅读和分析。

幸运的是,研究揭示了对非书面语言的一些替代方案,结果令人鼓舞。可以训练语音到意图(speech-to-meaning)模型,让它去学习语音的语义表示,并与翻译后的文本或图像对应起来。通过巧妙避开标准化写作系统的需求,这种方法为口头语言开辟了一个充满可能性的语音技术世界。

无利基市场
如果这些听起来像是ASR在学术和人道主义方面的利基应用,请再思考一下。
大规模的多语言扩张已成为各大科技公司的首要任务,比如,亚马逊目标将虚拟助手技术扩展到1000种语言,谷歌也提出了“千种语言倡议”(1,000 Languages Initiative)。
Meta发起的“不落下任何语言”项目(No Language Left Behind)已经使用翻译文本载体,为以口语为主的闽南语(Hokkien)开发了一个语音到语音翻译系统。
尽管资源并不短缺,但这些公司渴望扩大语言覆盖范围,同时尽可能少地为耗时的人工转录付费。随之而来的是人工智能殖民主义的风险,使少数民族的文化和语言被进一步边缘化。
为了防范这种情况,让社群团体参与开发适合其语言的技术非常重要。Te Hiku Media是一家毛利语(Māori)广播电台,该电台与其社群合作,为毛利语(也称为te reo)开发了行之有效的ASR,尤其强调数据主权对土著语言的重要性,这一点在他们的《Kaitiakitanga License》文件中已正式确立。
如果大型科技公司真正致力于打造更具包容性和负责任的人工智能,以保护全世界语言的丰富性,那么这未尝不是一个很好的起点。

原文网址 https://slator.com/speechless-recognition-can-ai-transcribe-language-its-never-heard/

特别说明:本文内容选自Slator官网,仅供学习交流使用,如有侵权请后台联系小编删除

– END –

摘译编辑:李春郁

推文编辑:高菲
Was it helpful ?

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注