人工智能语音助手不断发展，有望实现更深入的互动

Gemini Advanced用户订阅谷歌的Gemini Live每月只需20美元，其目标是成为一个数字伙伴，而不是一个简单的语音应用程序。它承诺与谷歌生态系统进行深度整合，允许用户通过自然对话与 Gmail、日历和地图等应用程序进行交互。同样，OpenAI的”高级语音模式”目前正处于alpha测试阶段，它拥有类似人类的交互方式，并在早期版本中展示了其音乐能力。

与此同时，苹果公司正准备在今年秋季的iOS 18中发布一款由人工智能驱动的Siri生成器升级版，有望实现更自然、更贴近上下文的互动。据报道，亚马逊也在开发一款基于订阅的人工智能增强版Alexa，以在这个不断变化的市场中竞争。最近，IBM为其watsonx助手推出了新功能，利用大型语音模型 (LSMs) 增强电话渠道的语音识别能力。IBM声称，这些先进技术在特定客户服务场景中的表现优于OpenAI 的Whisper模型，旨在通过提供更自然、更准确的语音交互来改变呼叫中心的运营。

这种向更复杂的语音人工智能发展的趋势反映了更广泛的行业趋势。科技公司都在打赌，语音将成为人工智能交互的主要界面，为用户在日常生活中使用大型语言模型提供更自然、更直观的方式。

随着这些助手的能力越来越强，并融入我们的日常生活，它们有望彻底改变我们与技术的互动方式。从管理日程安排、总结电子邮件，到即时提供有关地点或视频的信息，这些人工智能伴侣旨在与我们的数字体验完美融合。

然而，这种快速发展引发了有关隐私、数据收集以及越来越像人类的人工智能互动的伦理影响等重要问题。Kowski指出：”随着人工智能语音助手的集成度越来越高，人们对数据收集、存储和个人信息的潜在滥用产生了担忧。此外，还有关于同意、人工智能互动的透明度以及操纵或误导信息的可能性等伦理方面的考虑因素”。

Was it helpful ?

还有问题？我们能帮忙吗？