微软刚刚开发出一种AI语音生成器，效果逼真到无法公开发布

其他推荐

活动预告 | 《人工智能赋能口译》新书发布暨读书会活动启动

2026年4月9日

精品课程 | 大语言模型赋能本地化项目实战工作坊报名开启

2026年2月3日

北京外国语大学2026年博士研究生招生简章

2026年2月3日

行业动态｜2025年语言服务40人论坛三号通知（更新）

2026年2月3日

详细议程 | 2025中国翻译协会翻译技术专业委员会年会即将举办

2026年2月3日

赋能未来 | 大模型赋能视听翻译实战工作坊

2026年2月3日

双十二特惠｜99元“外语+”技术年度会员，前100位报名即赠AIPE最新教材

2026年2月3日

行业动态 | 速看！谷歌发布开源医学语音转文本模型MedASR

2026年2月3日

行业洞见 | 速看！语言类就业市场如何？看看点击量名列前茅的职位有哪些

2026年2月3日

资源干货 |《如何增强语言技能》：AI时代，翻译教育的增强之道

2026年2月3日

语音显然是生成式AI的下一个重要战场，许多公司都在努力开发能够理解和复制自然语音模式的模型。虽然像ChatGPT Voice这样的技术可能会永久改变故事讲述的方式，但微软声称他们已经达到了语音生成的巅峰：媲美人类。

微软的研究人员表示，其VALL-E 2文本转语音生成器十分先进，如若公开发布，将是危险且不负责任的。一篇研究称，该生成器只需要几秒的音频就可以再现出与人类声音无异的语音。

微软的科学家们认为，与LibriSpeech和VCTK语音库的音频样本相比，VALL-E 2生成的语音在质量上与人类声音相当甚至更胜一筹。

”VALL-E 2是神经编解码语言模型的最新进展，标志着零样本文本转语音合成的一个里程碑，首次实现了媲美人类，”研究人员写道。”此外，VALL-E 2即使在处理复杂或重复短语的句子时，也能持续合成高质量的语音。”

尽管研究人员并未公开发布该模型，但他们在该项目相关的博客文章中给出了几个音频样本。你可以听到LibriSpeech的语音，然后听到VALL-E和VALL-E 2生成的全新（复杂）句子。

尽管第一代模型听起来尚为生硬，但不可否认的是，VALL-E 2在复现讲话者的共鸣和发音方面表现出色。

工作原理

微软的VALL-E 2 生成器使用了两种特定功能来实现其令人印象深刻的效果：”重复感知采样”和”分组代码建模”。

第一种功能旨在通过解决小部分单词或短语（称为标记）重复的问题，使输出听起来更加流畅——例如一个充满头韵的句子。

第二种功能通过减少模型在单个输入序列中处理的标记数量，提高了效率。

”VALL-E 2在语音稳健性、自然性和讲话者相似性方面超越了以前的零样本文本转语音系统，”研究人员在博文中写道。”VALL-E 2可以用原讲话者的声音生成准确、自然的语音，媲美人类表现。”

太危险了？

尽管微软认为这种级别的AI语音生成器有其用途，例如为失语症患者或肌萎缩侧索硬化症患者生成语音，但目前仅将此技术用于研究。

”目前，我们没有计划将VALL-E 2整合到产品中或向公众开放，”科学家们写道。这部分是因为一旦公开使用，可能会带来滥用的风险。在帖子末尾的伦理声明中，研究人员写道，他们的创作”可能带来模型滥用的潜在风险，例如欺骗语音识别或冒充特定讲话者。”

无独有偶。ChatGPT的发明者OpenAI也对其某些语音技术进行了限制，并创建了一个深度伪造检测器，以帮助用户识别图像是否由AI生成。VALL-E 2（或其后继产品）是否会继续禁止向公众开放还有待观察。未来几个月以至几年，AI竞赛将会加剧，公司和科学家无疑将感受到推动边界的压力。

（机器翻译，轻度译后编辑，仅供参考）

编辑：田逸云

原文链接

Was it helpful ?

还有问题？我们能帮忙吗？