2024年3月29日,OpenAI推出了其语音合成生成式人工智能模型Voice Engine。
根据OpenAI的一篇博客文章,Voice Engine自2022年底开始开发,产品背后的技术已经被用于现有的产品,如OpenAI的文本到语音API和ChatGPT语音以及朗读功能。
但是OpenAI正在谨慎地在这些应用之外前行,提到了“潜在的合成声音滥用”的风险。
为此,OpenAI尚未向公众提供Voice Engine,并且该公司目前正在与一小部分“信任的合作伙伴”测试该模型。(除了像OpenAI这样的个别公司的责任外,美国联邦通信委员会于2024年2月宣布,使用人工智能生成的语音拨号电话是非法的。)
这些合作伙伴包括一些工作涉及翻译的用户。使用仅15秒的音频片段,Voice Engine可以生成用另一种语言说话的合成声音。
Dimagi,这家为不同国家的贫困社区的一线医疗工作者提供工具的公司,使用Voice Engine为工作人员提供母语的交互式反馈。
“在用于翻译时,Voice Engine 保留了原始说话者的母语口音:例如,使用来自法语说话者的音频样本生成的英语将带有法国口音。”OpenAI在博客文章中解释道。
举个例子:一个英文源或参考音频剪辑伴随着西班牙语、普通话、德语、法语和日语的生成版本片段(每个片段都具有明显的美国口音)。
脱颖而出
所谓的“语音克隆”技术是许多初创公司的基石,例如ElevenLabs、Papercup、Deepdub和Respeecher,也是一些科技巨头的主要兴趣所在,其中包括亚马逊、微软和谷歌。
Voice Engine培训数据的来源对于OpenAI来说是一个敏感话题,该公司因其文本生成工具而被《纽约时报》起诉侵犯版权。
OpenAI产品团队成员杰夫·哈里斯告诉TechCrunch,Voice Engine模型是“基于授权和公开可用数据的混合”进行训练的,并补充说“在请求完成后使用的音频(即来自用户的15秒片段)会被删除。”
TechCrunch还报告了每小时约1美元的价格估算,比某些竞争对手更便宜,例如ElevenLabs,后者每月收取11美元/10万个字符。
语音合成技术的蔓延已经在娱乐业引起了争议。特别是,有关表演者可能在配音方面失去工作的担忧在一定程度上促成了2023年演员长达数月的罢工。在好莱坞之外的印象则更加复杂。
尽管《纽约时报》对OpenAI的诉讼案件仍在进行中,但该报以一种兴奋的惊叹之情描述了Voice Engine,写道OpenAI“推出了可以重现某人声音的技术”。
“OpenAI在2022年开发了Voice Engine……”一位印象深刻的评论者指出,修辞地补充道“……而你仍然认为AGI [通用人工智能]还没有在内部实现?”
X网站上的另一位观察者则持有明显更少积极的态度:“现在,只需15秒的音频,OpenAI就能完全模仿你的声音,就像从地狱来的机器鹦鹉一样。”
(机器翻译,轻度译后编辑,仅供参考)
编辑:刘煜珍