合成语音的未来:革新多语言多媒体

分享

其他推荐

人们对多样化的、引人入胜的内容有贪得无厌的需求,在此驱动下,多媒体正在快速发展。从主要媒体平台到企业电子学习模块,对高效、经济、多语言的内容的需求至关重要。 

合成语音技术处于这一变革的前沿,有望重新定义我们创建和消费多媒体内容的方式。

合成语音:多媒体制作中的游戏规则改变者

在我们最近的LinkedIn Live活动“新兴人工智能——塑造多媒体内容创作的未来”中,凯文·阿尔斯特(Synthesia的数字学习策略师),迈克尔·安德森(Welocalize的多媒体主管),以及布伦南·史密斯(Welocalize的人工智能服务负责人),阐述了合成语音技术的显著进步。

这项技术利用人工智能来创建虚拟形象和合成语音,大大加快了生产速度,降低了成本。与需要大量资源的传统方法不同,合成语音可以从文本中生成逼真的类人语音,提供一系列语音和语言。

如有需要,您可以点击此处观看网上研讨会>>>

对生产效率和可及性的影响

凯文强调了合成语音是如何改变视频创作的,“我们现在能够做的是,你可以使用虚拟形象,屏幕上不必有一个真人,你可以使用合成语音,麦克风里不必有真人声音。”

传统的方法通常费力且对技能有高要求,这些传统方法正在被更容易访问的、基于浏览器的工具所取代,如Synthesia工作室Murf.ai,以及Listnr。这一进步使创作者能够以最少的努力制作出精美的内容,使多媒体制作民主化。将虚拟形象和合成声音融合起来,会带来更具表现力和多样性的表演,满足从电子学习到企业沟通的各种用例。

拓展市场及客户

合成语音在各行各业的广泛采用情况如何?迈克尔说,“我们注意到,越来越多的画外音客户来找我们,他们本来不会做画外音,也许对他们的项目来说太贵了,也许花了太长时间,现在他们会说,好吧,是的,有了合成语音,我们可以做得更快,而且符合我们的预算。”

这种转变在电子学习和培训视频中尤为明显,合成语音满足了速度快和经济实惠的内容制作的需求。

迈克尔补充道,“越来越多的客户看到了这种价值,尤其是电子学习和长时长的培训视频中的价值,因为我们可以以令人难以置信的速度和低得多的成本完成工作。”

文化差异与伦理考量

合成语音技术的一个重要方面是它对文化差异和伦理考虑的敏感性。例如,在人工智能模型中使用某人的肖像需要征得同意,这是至关重要的。

凯文强调,对于这一问题,当演员的肖像被用于虚拟头像时,Synthesia会征得演员的明确许可,确保负责任的使用以及内容审核。“你走进工作室,在阅读剧本或拍摄之前,你要做的第一件事就是提供视频许可,在视频中,你要说出自己的名字,并且表明你知道自己的肖像将被变成一个虚拟形象。”

反馈和未来展望

来自用户的反馈表明对合成语音的当前状态有很高的满意度:

  • 类人品质:来自不同用户的反馈非常积极,合成音频现在如此逼真,以至于经常被误认为是人声。这一进步在电子学习和企业视频等需要自然语音的领域至关重要。
  • 文化和语言的一致性:迈克尔指出,考虑到所涉及的不同语言数据集,不同语言的语音质量的一致性是一个重要的成就。这种一致性对于全球内容创作者来说非常重要,跨多种语言时,他们必须保持语气和风格的一致性。

改进和增强

  • 逼真的表情和手势:凯文讨论了正在进行的改进,例如将手势和表情编程到虚拟形象中。这一发展旨在与虚拟形象的交互更加自然和人性化,增强观众的整体体验。
  • 语境理解:人工智能理解语境并对语境做出适当反应的能力,如手势和表情中的文化差异,这是一个关键的发展领域。对于文化敏感性和准确性至关重要的全球应用程序来说,此功能非常关键。

与其他技术的融合

  • 脚本生成和自动化:利用GPT等工具,人工智能在编剧中的融合呈现了一个充满希望的未来,人工智能将会自主地为特定内容生成脚本,如航空安全视频。这种进步可以大大简化内容创建
  • 实时交互:凯文·阿尔斯特分享了对实时生成人工智能视频潜力的见解。这一进步可能会彻底改变交互式学习和客户服务,实现即时响应和个性化交互。

随着技术的进步,我们期待更自然的声音和细致入微的表情。实时视频生成和与人工智能虚拟形象互动的潜力为个性化和动态内容创建开辟了新的领域,未来可能会有:

  • 全3D虚拟形象和环境:开发全3D虚拟形象和环境,实现更加动态的、多功能的视频演示。这种能力可以带来更加身临其境和引人入胜的多媒体内容。
  • 无缝数字和物理集成:未来的发展可以使虚拟形象和环境与物理产品集成,为产品演示和广告提供创新的方式。
  • 自然语言处理增强:自然语言处理的改进将使人工智能虚拟形象能够进行更自然的对话,包括使用自然的语音模式,如停顿和小错误。这将使与人工智能的互动更具关联性,少些机器化。

多媒体内容创作的新时代

合成语音技术的进步标志着多媒体内容创作新时代的开始。我们见证人工智能和人类创造力的融合,与此同时,实现引人入胜、多样化、可访问的内容的可能性是无限的。

原文链接

(机器翻译,轻度译后编辑,仅供参考。)

编辑:李旭媛

Was it helpful ?