OpenAI小心地推出多语言生成式人工智能语音引擎

其他推荐

二号通知｜大语言模型赋能外语专业教育创新研修班【西安】

2025年6月9日

二号通知 | 大语言模型辅助外语教学与课题建设研修班【哈尔滨】

2025年6月9日

开课倒计时4天 | 大语言模型+智能译后编辑实战工作坊，找到你的译后编辑进阶路

2025年6月9日

行业动态 | 2025年涉外法治与法律翻译研讨会在新疆图木舒克成功举办

2025年6月9日

精彩回顾 | 第三届全国翻译技术大赛第三期培训内容回顾&牛刀小试

2025年6月9日

会议预告 | 香港恒生大学：AI时代下翻译与语言服务行业的机遇与挑战

2025年6月9日

行业资讯 | 正在退出历史舞台的外语学院

2025年6月9日

招聘快报 | 中国日报招聘英文编辑、外联经理

2025年6月9日

精彩回顾 | 外籍教师Nick Lambson剖析大语言模型，智能译后编辑核心

2025年6月9日

《大语言模型+智能译后编辑实战工作坊》第一讲开讲啦！由北京语言大学资深外籍教师Nick Lambson主讲，为大家带来一场专业又干货满满的知识盛宴，现在就一起来回顾吧！

倒计时3天 | 第三届全国翻译技术大赛系列培训第六期开启

2025年6月9日

第三届全国翻译技术大赛系列培训第六期即将于6月11日（星期三）19点开启，欢迎各位对翻译技术感兴趣的人士提前预约，积极参与！

2024年3月29日，OpenAI推出了其语音合成生成式人工智能模型Voice Engine。

根据OpenAI的一篇博客文章，Voice Engine自2022年底开始开发，产品背后的技术已经被用于现有的产品，如OpenAI的文本到语音API和ChatGPT语音以及朗读功能。

但是OpenAI正在谨慎地在这些应用之外前行，提到了“潜在的合成声音滥用”的风险。

为此，OpenAI尚未向公众提供Voice Engine，并且该公司目前正在与一小部分“信任的合作伙伴”测试该模型。（除了像OpenAI这样的个别公司的责任外，美国联邦通信委员会于2024年2月宣布，使用人工智能生成的语音拨号电话是非法的。）

这些合作伙伴包括一些工作涉及翻译的用户。使用仅15秒的音频片段，Voice Engine可以生成用另一种语言说话的合成声音。

Dimagi，这家为不同国家的贫困社区的一线医疗工作者提供工具的公司，使用Voice Engine为工作人员提供母语的交互式反馈。

“在用于翻译时，Voice Engine 保留了原始说话者的母语口音：例如，使用来自法语说话者的音频样本生成的英语将带有法国口音。”OpenAI在博客文章中解释道。

举个例子：一个英文源或参考音频剪辑伴随着西班牙语、普通话、德语、法语和日语的生成版本片段（每个片段都具有明显的美国口音）。

脱颖而出

所谓的“语音克隆”技术是许多初创公司的基石，例如ElevenLabs、Papercup、Deepdub和Respeecher，也是一些科技巨头的主要兴趣所在，其中包括亚马逊、微软和谷歌。

Voice Engine培训数据的来源对于OpenAI来说是一个敏感话题，该公司因其文本生成工具而被《纽约时报》起诉侵犯版权。

OpenAI产品团队成员杰夫·哈里斯告诉TechCrunch，Voice Engine模型是“基于授权和公开可用数据的混合”进行训练的，并补充说“在请求完成后使用的音频（即来自用户的15秒片段）会被删除。”

TechCrunch还报告了每小时约1美元的价格估算，比某些竞争对手更便宜，例如ElevenLabs，后者每月收取11美元/10万个字符。

语音合成技术的蔓延已经在娱乐业引起了争议。特别是，有关表演者可能在配音方面失去工作的担忧在一定程度上促成了2023年演员长达数月的罢工。在好莱坞之外的印象则更加复杂。

尽管《纽约时报》对OpenAI的诉讼案件仍在进行中，但该报以一种兴奋的惊叹之情描述了Voice Engine，写道OpenAI“推出了可以重现某人声音的技术”。

“OpenAI在2022年开发了Voice Engine……”一位印象深刻的评论者指出，修辞地补充道“……而你仍然认为AGI [通用人工智能]还没有在内部实现？”

X网站上的另一位观察者则持有明显更少积极的态度：“现在，只需15秒的音频，OpenAI就能完全模仿你的声音，就像从地狱来的机器鹦鹉一样。”

（机器翻译，轻度译后编辑，仅供参考）

原文链接

编辑：刘煜珍

Was it helpful ?

还有问题？我们能帮忙吗？