在OpenAI春季更新上,OpenAI首席技术官米拉·穆拉蒂(Mira Murati)推出了GPT-4o,这是一款新的旗舰机型,通过文本、图像和音频的“omni”功能丰富了其套件,承诺在未来几周内迭代推出,以增强开发者和消费者产品。
“他们正在发布一个文本——音频——图像组合模型,在一个单一的神经网络中处理所有三种模式,然后如果你要求它,它可以作为一个特例进行实时语音翻译,”前OpenAI计算机科学家Andrej Karpathy说,他很快对发布做出了回应。
“新的语音(和视频)模式是我用过的最好的计算界面。感觉像电影里的AI,我还是有点惊讶这是真的。OpenAI首席执行官萨姆·奥特曼表示:“达到人类水平的响应时间和表达能力是一个巨大的变化。”他希望将‘通用基本计算’带给世界上的每个人。
此外,他说最初的ChatGPT暗示了语言界面的可能性;“这个新事物给人的感觉是完全不同的。它快速、聪明、有趣、自然、很有帮助。”
奥特曼说,对着电脑说话对他来说从来都不是很自然。“现在自然了,”他说,对未来人们将使用计算机做比以往更多的事情充满希望。
GPT-4o真正有趣的是,它将很快提供给ChatGPT Plus(带有一些个性化功能)和ChatGPT免费用户。“我们是一家企业,会发现很多东西可以收费,这将有助于我们为(希望)数十亿人提供免费、出色的人工智能服务,”奥特曼说。“感谢Jensen和NVIDIA团队为我们带来了最先进的GPU,使今天的演示成为可能,”Murati在闭幕词中说。与此同时,OpenAI总裁兼联合创始人Greg Brockman也展示了人机交互(甚至人机——计算机),让用户一瞥AGI之前的氛围。
介绍GPT-4o,我们的新模型,可以实时推理文本,音频和视频。
它非常通用,玩起来很有趣,并且向更自然的人机交互形式(甚至是人机交互)迈出了一步:pic.twitter.com/VLG7TJ1JQx
—格雷格·布莱克曼(@gdb)2024年5月13日
RIP谷歌翻译?
在GPT-4o实时翻译能力的演示中,该模型在英语和意大利语之间进行了无缝翻译,体现了其复杂的语言适应性。许多人认为OpenAI的这一新功能很可能会取代谷歌翻译。
“OpenAI刚刚用他们的实时翻译器杀死了Google Translate(响应延迟接近0),”Fraser说,
实时语音翻译太疯狂了。再见,谷歌翻译,?!#OpenAI pic.twitter.com/joxgml3RXU
——汤姆·爱德华兹(@汤姆·爱德华兹)2024年5月13日
与此同时,谷歌正准备在明天的谷歌I/O上发布一些重大公告。谷歌DeepMind首席执行官Demis Hassabis分享了其多模态人工智能助手的类似一瞥,他说:“对明天我的第一次谷歌I/O和分享我们一直在做的事情感到非常兴奋!”
超级兴奋明天我的第一个#GoogleIO和分享我们一直在做的事情!https://t.co/hRXvNlZSrV-丹米斯 哈撒比斯(@demishassabis)2024年5月13日
不仅仅是谷歌,许多人很快指出了许多提供类似解决方案和功能的人工智能初创公司的终结。“OpenAI只是打中了兔子的脸,”人工智能开发者本杰明·德·克拉克说。
有趣的是,OpenAI还宣布推出GPT-4o API,开发者可以用它来构建新产品和解决方案。
好了,我们拿到API了。这个游戏不是自相残杀,而是每个人都在同一个基础上工作。一旦地基稳固,它上面的建筑就会大不相同。pic.twitter.com/FDyqlEZzOb
—刘美谊(@jessechenglyu)2024年5月13日
与此同时,发布EVI(移情语音界面)的Hume AI也感受到了压力,让他们今天推出了API,以及其他未来的改进。
移情人工智能的未来看起来很光明!有感情的智能AI将成为未来所有基于语音的应用的标准。EVI现在可以通过我们的API获得,所以您可以立即开始构建。我们即将推出许多令人兴奋的改进——这是…
-休谟(@hume_ai)2024年5月13日
提高非英语语言能力
有趣的是,OpenAI还扩展了其语言能力,支持50多种语言,包括印度语言。GPT-4o显著优化了印度语言的令牌使用,将古吉拉特语减少了4.4倍,泰卢固语减少了3.5倍,泰米尔语减少了3.3倍,马拉地语和印地语减少了2.9倍。
我们还显著提高了非英语语言的性能,包括改进标记器以更好地压缩其中的许多标记:pic.twitter.com/hE92x1qmM1
—格雷格·布莱克曼(@gdb)2024年5月13日
GPT-4o可以进行自然、实时的语音对话,并能够通过实时视频与ChatGPT进行对话。它还理解说话者的情绪语气,并可以相应地调整其语气和调制。
此外,最新的模型可以理解和讨论图像,允许用户用外语拍摄菜单并翻译,了解食物的历史和意义,并接收推荐。
离自主代理又近了一步
另一个有趣的更新是OpenAI宣布的ChatGPT(GPT-4o)桌面应用程序,它可以实时读取你的屏幕。该应用程序允许语音对话、截图讨论和即时访问ChatGPT。
桌面应用程序和新用户界面pic.twitter.com/k8ukzCCeH4
-山姆·奥特曼(@sama)2024年5月13日
GPT-4“Omni”什么时候到达?
GPT-4o的文本和图像功能今天开始在ChatGPT推出。开发人员现在可以在API中访问GPT-4o作为文本和视觉模型。
该公司正在向ChatGPT Plus和团队用户推出GPT-4o,企业用户也将很快推出。ChatGPT免费用户还将获得先进的工具,包括GPT-4级智能、网络响应、数据分析和文件上传等功能。
然而,ChatGPT免费用户将有一个消息限制,这将随着使用和需求的增长而增加。当达到限制时,应用程序将自动切换到GPT-3.5,以确保不间断的对话。最后但并非最不重要的是,该公司还为ChatGPT引入了简化的外观和感觉,具有新的主屏幕、消息布局等。新的设计是为了更友好和更健谈。
(机器翻译,轻度译后编辑,仅供参考)
编辑:刘慧