语音AI技术正在快速发展,有望从客户服务到内部沟通全面改变企业运营。
最近几周,OpenAI推出了新的工具,以简化AI语音助手的创建,并将其高级语音模式扩展到更多付费客户。微软更新了其Copilot AI,增强了语音功能和推理能力,而Meta则在其消息应用中引入了语音AI。
IBM杰出工程师Chris Hay称,这些进步“可能会改变企业与客户对话的方式”。
用于客户服务的AI语音
Hay设想了各种规格的企业与客户互动和管理运营方式的巨大转变。他表示,AI驱动的通信工具的普及可以为小型企业提供前所未有的机会,使其能够与大型企业竞争。
“我们正在进入AI联络中心的时代,”Hay说,“每个小商店都可以拥有与大企业相同水平的客户服务。这是不可思议的。”
他表示,关键在于开发实时API(Application Programming Interface,简称API,应用程序编程接口),实现人与AI之间极低延迟的通信。这样,人们在日常对话中期望的那种来回交流将成为可能。
“要进行自然语言语音对话,模型的延迟需要在200毫秒左右,”Hay指出,“我不想等三秒……我需要快速得到回应。”
有了OpenAI等公司提供的API,开发者们可以使用新的语音AI技术。“有了大规模生产的开发者API,即使只有很少的模型和开发知识,任何人也都可以调用API并为自己构建该功能。”Hay说。
其影响可能是深远的。Hay预测,随着各类企业都采用这项技术,未来几个月和几年内将出现“音频虚拟助手的巨大浪潮”。这可能会带来更加个性化的客户服务,出现新的AI通信行业,萌生AI管理的工作。
对于消费者来说,这种体验可能很快就会与真人代理对话无异。Hay指出,谷歌的NotebookLM最近演示的AI生成播客证明了该技术的进步。
“如果没有人告诉我那是AI,我真的不会相信。”他谈到其中一个演示时说,“这些声音是有情感的。现在你正在与AI实时对话,而且这会越来越好。”
AI语音变得个性化
主要科技公司正在竞相发展其AI助手的特性和能力。Meta在其消息平台上为AI助手引入名人声音。用户可以选择明星的AI生成声音,如奥卡菲娜(Awkwafina)和朱迪·丹奇(Judi Dench)。
然而,伴随承诺而来的还有潜在风险。Hay承认,如果技术落入不法之徒手中,可能会为骗子和诈骗者所利用。
“在未来六个月内,你会看到新一代的诈骗者,他们的声音像你听到的那些播客主持人的真实声音,带有语调和情感。”Hay警告说,“这些模型本质上是为了从人们那里骗取钱财。”这可能使得传统的警示标志失效,比如不寻常的口音或机器人般的声音。“它们将被隐藏起来。”Hay说。
他将这种情况比作《哈利·波特》小说中的一个情节,角色必须通过个人问题来验证某人的身份。在现实世界中,人们可能需要采用类似的策略。
“我怎么知道我在和银行说话,”Hay思索道,“我怎么知道我在和我女儿说话,她在要钱?人们必须习惯问这些问题。”
尽管有这些担忧,Hay对技术的潜力仍持乐观态度。他指出,语音AI可以显著提高可访问性,使人们能够用母语与企业和政府服务互动。
“可以想想福利申请之类的东西,你会收到所有这些令人困惑的文件。想想,如果能够给你的福利提供商拨打电话,并且是用你的母语,那么就能把那些非常复杂的文件,翻译成你更容易理解的语言。”
语音AI技术继续发展,Hay认为我们只是触及了潜在应用的表面。他设想,在未来,AI助手将无缝集成到可穿戴设备中,比如Meta最近推出的Orion增强现实眼镜。
“当那个实时API在我的眼镜中时,我可以在移动中实时与之对话。”Hay说,“结合AR,这将是革命性的。”尽管他承认存在伦理挑战,包括最近智能眼镜能够立即识别出人们身份的事件,Hay对技术的前景仍持乐观态度。
“伦理问题需要解决,这是至关重要的,”他承认,“但我很乐观。”
(机器翻译,轻度译后编辑,仅供参考。)
编辑:李旭媛
审校:章坚