生成式人工智能的格局正在发生变化,科技巨头们将先进的语音助手作为下一个前沿领域。
谷歌最近面向安卓用户推出的Gemini Live是这场人工智能马拉松中的一个重要里程碑,紧随OpenAI开发的ChatGPT高级语音模式之后。与苹果的Siri和亚马逊的Alexa等前辈相比,这些下一代语音助手代表着一种飞跃。
SlashNext Email Security+的现场首席技术官Stephen Kowski 说:“谷歌的Gemini Live专注于与现有生态系统和设备的无缝集成,而OpenAI的GPT-4则强调类似人类的对话,响应延迟低至毫秒级。””两者在情感识别、语境理解和处理干扰方面都突破了界限”。
Gemini Advanced用户订阅谷歌的Gemini Live每月只需20美元,其目标是成为一个数字伙伴,而不是一个简单的语音应用程序。它承诺与谷歌生态系统进行深度整合,允许用户通过自然对话与 Gmail、日历和地图等应用程序进行交互。同样,OpenAI的”高级语音模式”目前正处于alpha测试阶段,它拥有类似人类的交互方式,并在早期版本中展示了其音乐能力。
与此同时,苹果公司正准备在今年秋季的iOS 18中发布一款由人工智能驱动的Siri生成器升级版,有望实现更自然、更贴近上下文的互动。据报道,亚马逊也在开发一款基于订阅的人工智能增强版Alexa,以在这个不断变化的市场中竞争。最近,IBM为其watsonx助手推出了新功能,利用大型语音模型 (LSMs) 增强电话渠道的语音识别能力。IBM声称,这些先进技术在特定客户服务场景中的表现优于OpenAI 的Whisper模型,旨在通过提供更自然、更准确的语音交互来改变呼叫中心的运营。
这种向更复杂的语音人工智能发展的趋势反映了更广泛的行业趋势。科技公司都在打赌,语音将成为人工智能交互的主要界面,为用户在日常生活中使用大型语言模型提供更自然、更直观的方式。
随着这些助手的能力越来越强,并融入我们的日常生活,它们有望彻底改变我们与技术的互动方式。从管理日程安排、总结电子邮件,到即时提供有关地点或视频的信息,这些人工智能伴侣旨在与我们的数字体验完美融合。
然而,这种快速发展引发了有关隐私、数据收集以及越来越像人类的人工智能互动的伦理影响等重要问题。Kowski指出:”随着人工智能语音助手的集成度越来越高,人们对数据收集、存储和个人信息的潜在滥用产生了担忧。此外,还有关于同意、人工智能互动的透明度以及操纵或误导信息的可能性等伦理方面的考虑因素”。