语音显然是生成式AI的下一个重要战场,许多公司都在努力开发能够理解和复制自然语音模式的模型。虽然像ChatGPT Voice这样的技术可能会永久改变故事讲述的方式,但微软声称他们已经达到了语音生成的巅峰:媲美人类。
微软的研究人员表示,其VALL-E 2文本转语音生成器十分先进,如若公开发布,将是危险且不负责任的。一篇研究称,该生成器只需要几秒的音频就可以再现出与人类声音无异的语音。
微软的科学家们认为,与LibriSpeech和VCTK语音库的音频样本相比,VALL-E 2生成的语音在质量上与人类声音相当甚至更胜一筹。
”VALL-E 2是神经编解码语言模型的最新进展,标志着零样本文本转语音合成的一个里程碑,首次实现了媲美人类,”研究人员写道。”此外,VALL-E 2即使在处理复杂或重复短语的句子时,也能持续合成高质量的语音。”
尽管研究人员并未公开发布该模型,但他们在该项目相关的博客文章中给出了几个音频样本。你可以听到LibriSpeech的语音,然后听到VALL-E和VALL-E 2生成的全新(复杂)句子。
尽管第一代模型听起来尚为生硬,但不可否认的是,VALL-E 2在复现讲话者的共鸣和发音方面表现出色。
工作原理
微软的VALL-E 2 生成器使用了两种特定功能来实现其令人印象深刻的效果:”重复感知采样”和”分组代码建模”。
第一种功能旨在通过解决小部分单词或短语(称为标记)重复的问题,使输出听起来更加流畅——例如一个充满头韵的句子。
第二种功能通过减少模型在单个输入序列中处理的标记数量,提高了效率。
”VALL-E 2在语音稳健性、自然性和讲话者相似性方面超越了以前的零样本文本转语音系统,”研究人员在博文中写道。”VALL-E 2可以用原讲话者的声音生成准确、自然的语音,媲美人类表现。”
太危险了?
尽管微软认为这种级别的AI语音生成器有其用途,例如为失语症患者或肌萎缩侧索硬化症患者生成语音,但目前仅将此技术用于研究。
”目前,我们没有计划将VALL-E 2整合到产品中或向公众开放,”科学家们写道。这部分是因为一旦公开使用,可能会带来滥用的风险。在帖子末尾的伦理声明中,研究人员写道,他们的创作”可能带来模型滥用的潜在风险,例如欺骗语音识别或冒充特定讲话者。”
无独有偶。ChatGPT的发明者OpenAI也对其某些语音技术进行了限制,并创建了一个深度伪造检测器,以帮助用户识别图像是否由AI生成。VALL-E 2(或其后继产品)是否会继续禁止向公众开放还有待观察。未来几个月以至几年,AI竞赛将会加剧,公司和科学家无疑将感受到推动边界的压力。
(机器翻译,轻度译后编辑,仅供参考)
编辑:田逸云