本周,谷歌和OpenAI都宣布他们已经创建了超级人工智能助手:这些工具可以与你实时交谈,在你打断它们后可以继续谈话,还能通过视频直播分析你的周围环境,并即时翻译对话。
5月13日,OpenAI首次亮相其新旗舰模型GPT-4o。在现场演示时,该模型可以阅读睡前故事,帮助解决数学问题,模型的声音听起来像电影《她》中华金·菲尼克斯的人工智能女友的声音(首席执行官萨姆·奥特曼没有忘记这一点)。
5月14日,谷歌宣布了自己的新工具,其中包括一个名为Gemini Live的对话助手,它可以做许多GPT-4o能做到的事情。谷歌还透露其正在建立一种“无所不能”的人工智能代理,目前正在开发中,但要到今年晚些时候才会发布。
很快你就能自己探索,判断你是否会像它们的制造者希望的那样在日常生活中使用这些工具,或者它们是否更像是最终失去魅力的科幻派对把戏。以下是你应该知道的相关信息,如何使用这些新工具,你可能会用它们做什么,以及这些工具将花费多少。
OpenAI的GPT-4o
它能做什么:该模型可以与你实时交谈,响应延迟约为320毫秒,OpenAI表示,这与自然的人类对话相当。你可以让模型解释你的智能手机摄像头指向的任何东西,它可以为编码或翻译文本等任务提供帮助。它还可以汇总信息,生成图像、字体和3D渲染。
如何访问:OpenAI表示,它将开始在网络界面以及GPT应用程序中推出GPT-4o的文本和视觉功能,但尚未确定日期。该公司表示,将在未来几周内增加语音功能,尽管尚未确定具体日期。开发人员现在可以访问API中的文本和视觉功能,但语音模式最初将只对“一小部分”开发人员推出。
费用:GPT-4o可以免费使用,但在你需要升级到付费计划之前,OpenAI将对你可以使用该模型的数量设置上限。GPT-4o计划收费每月20美元起,付费用户的容量将增加五倍。
谷歌的Gemini Live
Gemini Live是什么?这是谷歌最能与GPT-4o相媲美的产品,是可以实时对话的人工智能模型。谷歌表示,“今年晚些时候”你还可以使用该工具通过视频直播进行交流。该公司承诺,对于准备工作面试或排练演讲等事情,Gemini Live将是一个有用的对话助手。
如何访问:Gemini Live将通过谷歌的高级人工智能计划Gemini Advanced在“未来几个月”推出。
费用:Gemini Advanced提供两个月的免费试用期,此后每月收费20美元。
Project Astra是什么?Astra是一个建立万能人工智能代理的项目,在谷歌的I/O大会上演示过,但要到今年晚些时候才会发布。
谷歌DeepMind研究副总裁Oriol Vinyals告诉麻省理工学院技术评论,人们将能够通过智能手机和台式电脑使用Astra,但该公司也在探索其他选择,如将其嵌入智能眼镜或其他设备。
哪个更好?
如果我们自己没有这些模型的完整版本,很难说哪个更好。谷歌通过一个精美的视频展示了Project Astra,而OpenAI选择通过一个看似更真实的现场演示首次亮相GPT-4o,但在这两种情况下,两个模型都被要求做设计师可能已经练习过的事情。当它们首次面向数百万有独特需求的用户时,真正的考验将会到来。
也就是说,如果你将OpenAI与谷歌发布的视频进行比较,这两个领先的工具看起来非常相似,至少在易用性方面是如此。总的来说,GPT-4o似乎在音频方面略微领先,它有逼真的声音、对话流,甚至可以唱歌,而Project Astra展示了更先进的视觉功能,比如能够“记住”你把眼镜放在了哪里。OpenAI决定更快地推出新功能,这可能意味着其产品最初会比谷歌的产品得到更多的使用,谷歌的产品要到今年晚些时候才能完全使用。现在判断哪种模型“产生”更少的错误信息或生成更多有用的信息还为时过早。
它们安全吗?
OpenAI和谷歌都表示,他们的模型很好地通过了测试:OpenAI表示,GPT-4o由错误信息和社会心理学等领域的70多名专家进行了评估,谷歌表示,Gemini“拥有迄今为止所有谷歌人工智能模型中最全面的、包括偏见和毒性的安全评估。”
但这些公司正在构建一个未来,在那里,人工智能模型可以搜索、审查和评估世界信息,为我们的问题提供简明的答案。与使用简单的聊天机器人相比,明智的做法是对新的AI助手告诉你的东西持有更多的怀疑。
(机器翻译,轻度译后编辑,仅供参考。)
编辑:李旭媛