OpenAI在昨晚的春季更新直播中使得苹果黯然失色。这发生在活动前的炒作和团队宣布的产品的压倒性积极反应方面。正如首席执行官萨姆·奥特曼所说:“感觉就像魔术一样”。
最大的公告是GTP-4o模型,它将为付费和免费用户提供ChatGPT。与大型语言模型不同,这是一个全模态模型,能够接收从文本到视频的任何内容,并输出语音、文本甚至3D文件。我们过去常常谈论史蒂夫·乔布斯永远改变手机行业的iPhone时刻,然后在2022年11月,我们开始谈论ChatGPT的每个时刻。这是另一个定义行业的产品,我认为OpenAI再次做到了这一点。在20多年的职业生涯中,我报道过很多产品发布,这是我尝试新产品时最激动人心的一次。如果奥特曼是可信的,这仅仅是开始。
为什么GPT-4o如此重要?
GPT-4o(或称Omni模型)带来了一种与信息交互的新方式。你可以直接进行对话或向它展示视频,而不是打字,并立即获得语音响应。
这种反应不会是其他助手略显单调,也不会是上一代ChatGPT声音的虚假变调——这是一种听起来很自然的声音,带有笑声、情感和变调,对你的对话做出实时反应。能够使用语音到语音进行自然对话的完整多模态功能仍在缓慢推出,但即使是聊天版本——以文本和图片进行对话——也比其前身更快、响应更快。奥特曼在他的博客中写道:“对着电脑说话对我来说从来都不是很自然;现在是了。随着我们增加(可选的)个性化、访问您的信息、代表您采取行动的能力等等,我真的可以看到一个令人兴奋的未来,我们能够使用计算机做比以往更多的事情。”
这个未来会是什么样子?
有一天,也许不像许多人想象的那么遥远,这项技术将为与我们一起工作或在家中为我们服务的机器人提供动力。你与之对话并与之对话的小黑点,就像第一台印刷机、打字机、个人电脑、互联网甚至智能手机一样,是获取信息的巨大范式转变。这些将是机器人,我们可以像朋友一样与之交谈,要求做复杂的任务,并让它既理解又做出反应。有人会爱上GPT-4o。即使在短期内,随着OpenAI为ChatGPT推出具有语音和视觉功能的iPad、iPhone和笔记本电脑应用程序,我们将看到它扮演导师、编码助理、财务顾问和健身教练的角色——并且不带任何判断地这样做。我们正在见证的——其他公司也将迎头赶上——是人机界面技术新时代的曙光。Omni模型不需要人工智能首先将你说的话转换成文本,分析文本,然后将其转换回语音——它们通过分析音频、我们声音的变化甚至直播视频来理解我们说的话。你与之对话并与之对话的小黑点,就像第一台印刷机、打字机、个人电脑、互联网甚至智能手机一样,是获取信息的巨大范式转变。
(机器翻译,轻度译后编辑,仅供参考)
编辑:刘慧