本周OpenAI和谷歌展示了他们最新、最伟大的人工智能技术。在过去的两年里,科技公司竞相让人工智能模型变得更智能,但现在一个新的焦点出现了:多模态人工智能。OpenAI和谷歌正在全身心关注可以在机器人的嘴、眼睛和耳朵之间无缝切换的人工智能。
“多模态”是最热门的词汇,科技公司将赌注押在日常生活中最诱人的人工智能模型上。自2022年ChatGPT推出以来,人工智能聊天机器人已经失去了光彩。因此,科技公司希望,人们与人工智能助手交谈以及在视觉上与其分享东西时可以比打字感觉更自然。当看到多模态人工智能在这方面做得很好时,感觉就像科幻小说成为了现实。
5月13日,OpenAI展示了GPT-4 Omni,这奇怪地让人想起了关于失去人类联系的反乌托邦电影《她》。Omni代表“omnichannel”(全能模型),OpenAI吹捧该模型处理视频和音频的能力。演示显示,ChatGPT通过手机摄像头看一个数学问题,OpenAI的一名工作人员口头要求聊天机器人引导他们完成这个问题。OpenAI表示,它现在正在向高级用户推出。
第二天,谷歌发布了Project Astra,它与GPT-4 Omni有大致相同的能力。Gizmodo的Florence Ion使用多模态人工智能来识别她正在看的人造花,人工智能正确地识别为郁金香。然而,Project Astra似乎比GPT-4o慢一点,声音也更加机器人化。比《她》更像Siri,但我会让你决定这是不是一件好事。然而,谷歌表示这还处于早期阶段,甚至指出OpenAI已经克服了一些当前的挑战。
谷歌在一篇博客中表示:“虽然我们在开发能够理解多模态信息的人工智能系统方面取得了令人难以置信的进展,但将响应时间缩短到对话时间是一项艰巨的挑战。”
现在你可能还记得谷歌2023年12月的Gemini演示视频,它被证明是高度操纵的。六个月后,谷歌仍然没有准备好发布它在视频中展示的内容,但OpenAI正在加快GPT-4o的发展。多模态人工智能代表了人工智能开发的下一场大赛,OpenAI似乎要获胜。
GPT-4o的一个关键区别在于,单个人工智能模型可以原生处理音频、视频和文本。以前,OpenAI需要单独的人工智能模型来将语音和视频翻译成文本,以便基于语言的底层GPT-4可以理解这些不同的媒体。鉴于响应时间较慢,谷歌似乎仍在使用多种人工智能模型来执行这些任务。
科技公司迎接多模态人工智能时代,我们也看到人工智能可穿戴设备得到了更广泛的采用。Humane AI Pin, Rabbit R1, Meta Ray-Bans都是利用这些不同媒介的人工智能设备的例子。这些设备有望让我们减少对智能手机的依赖,尽管Siri和谷歌助手也可能很快就会被赋予多模态人工智能。
在未来的几个月、几年里,我们可能会听到更多关于多模态人工智能的信息。将多模态人工智能开发集成到产品中可以使人工智能变得更加有用。这项技术最终可以减轻将世界转录成大语言模型的负担,允许人工智能自己“看到”和“听到”世界。
(机器翻译,轻度译后编辑,仅供参考。)
编辑:李旭媛