对于一些人工智能领域的巨头而言,语言技术的进步似乎是一场军备竞赛的代理。在2023年5月22日,Meta对其竞争对手OpenAI(拥有多语言自动语音识别和转录技术Whisper)发起挑战。
为介绍Meta的“大规模多语音”(MMS)项目,副总裁兼首席人工智能科学家Yann LeCun发推特赞扬该模型的语音转文本和文本转语音能力(1,100种语言),以及语言识别技能(4,000种口头语言)。最后一击:“Whisper一半的词错误率。”
推特上的反应褒贬不一。粉丝们对涵盖的语言数量和开发速度表示敬畏。一则推文写道:“4000种语言,我无语了…”。另一则评论:“哇,太庞大了!这个模型覆盖了以前无法构建强大数据集的方言!但是在某种程度上,通过Meta庞大的对话基础,这变得可能!”第三则推文建议,“说话者分离[diarization]…将使其与Whisper有很大区别,有很多实用应用。”
批评者对Meta与Whisper的比较提出异议。“模型看起来不错,但评估结果糟透了,”自然语言处理研究员Benjamin Marie在推特上表示。“很多词错误率的报告/复制来自先前的工作,无法进行比较。”自称为AI架构师的Daniel Monge指出,LeCun的说法似乎未考虑“更广泛使用的语言,比如英语、西班牙语、葡萄牙语等。”
Monge解释说:“我的意思是…当然它在世界上使用不到0.1%的语言上表现更好,因为最初的目标是解决长尾语言的问题。”
的确,Meta对MMS的宣传强调该系统可以为“1,100多种语言提供语音转文本、文本转语音等服务”,并夸耀支持的语言列表“是先前工作的10倍增长”。
引入MMS的研究论文似乎暗示了Meta扩展到更多语言的语音翻译计划。
“尽管我们构建了支持1,100至4,000种语言的语音系统,但当前全球有超过7,000种语言正在使用,”作者写道。“而且,即使对于高资源语言如英语,训练数据中也往往对许多方言进行了不充分的代表。”
与此同时,Whisper正在迅速投入生产。字幕领导者AI Media通过其云服务提供了Whisper,HappyScribe转向基于Whisper的转录解决方案,并在2023年5月初,整合SaaS Zapier开始提供Whisper连接器。
(机器翻译,轻度译后编辑,仅供参考。)
编辑:刘煜珍