2024 年 3 月 29 日,OpenAI 首次发布了用于语音合成的人工智能生成模型–语音引擎。
根据 OpenAI 的一篇博文,语音引擎自 2022 年末开始开发,该产品背后的技术已经在现有产品中得到应用,如 OpenAI 的文本到语音 API 和 ChatGPT 语音和朗读。
但是,OpenAI 正试图谨慎处理这些应用之外的问题,理由是存在 “潜在合成语音滥用 “的风险。
为此,OpenAI 尚未向公众提供语音引擎,该公司目前正在与一小群 “值得信赖的合作伙伴 “测试这一模式。(除了 OpenAI 等个别公司的责任外,美国联邦通信委员会还规定,人工智能生成的语音在 2024 年 2 月的抢答电话中是非法的)。
其中包括一些从事翻译工作的用户。语音引擎只需使用 15 秒钟的音频片段,就能生成另一种语言的合成语音。
Dimagi 公司为不同国家服务不足社区的一线医护人员开发工具,该公司使用语音引擎以医护人员的母语提供互动反馈。
“OpenAI 在博文中解释说:”当用于翻译时,语音引擎会保留原说话者的母语口音:例如,用法语说话者的音频样本生成英语,就会产生带有法语口音的语音。
这就是一个很好的例子:英语源音频片段或参考音频片段配有西班牙语、普通话、德语、法语和日语版本的生成片段(每个版本都带有明显的美国口音)。
脱颖而出
所谓的 “语音克隆 “技术是 ElevenLabs、Papercup、Deepdub 和 Respeecher 等多家初创公司的基石,也是亚马逊、微软和谷歌等科技巨头的主要兴趣所在。
对于 OpenAI 来说,语音引擎的训练数据来源是一个敏感话题,它曾被《纽约时报》起诉侵犯其文本生成工具的版权。
OpenAI 产品团队成员杰夫-哈里斯(Jeff Harris)告诉 TechCrunch,语音引擎模型是 “在授权数据和公开数据的混合基础上 “训练出来的,他还补充说,”使用的音频(即来自用户的 15 秒片段)在请求完成后就被丢弃了”。
TechCrunch 还报道了每小时约 1 美元的价格估算–低于某些竞争对手,如 ElevenLabs,其每月收费为 11 美元/100,000 个字符。“OpenAI在2022年就开发出了语音引擎……你还认为AGI(人工通用智能)还没有在内部实现吗?”语音合成技术的普及已经在娱乐界引起了争议。特别是,由于担心演员可能会失去配音工作,部分原因导致了 2023 年长达数月的演员罢工。好莱坞以外地区对它的印象则褒贬不一。
尽管《纽约时报》一直在反对 OpenAI,但该报在报道 Voice Engine 时还是带着一种令人窒息的惊叹,写道 OpenAI “已经推出了可以再现某人声音的技术”。
“OpenAI在2022年就开发出了语音引擎…… “一位印象深刻的评论员指出,并反问道:”……你还认为内部还没有实现AGI(人工通用智能)吗?
X 的另一位观察员的看法显然没有那么积极:”现在,只需 15 秒钟的音频,OpenAI 就能完全模仿你的声音,就像来自地狱的机器人鹦鹉”。