ChatGPT现在被称为“语音翻译应用杀手”:OpenAI凭借开创性的GPT-4o在人工智能竞赛中遥遥领先

分享

其他推荐

在不断发展的人工智能(AI)领域,OpenAI继续突破界限,让其竞争对手争相跟上。2024年5月13日,这家微软支持的初创公司宣布了其最新的奇迹:GPT-4o,这是一款增强的模型,能够无缝集成文本、语音和图像输入和输出,具有无与伦比的流畅性和多功能性。

OpenAI的GPT-4o代表了人工智能能力的重大飞跃,拥有从任何输入组合无缝处理和生成文本、语音和图像输出的能力。这种多模态功能打开了一个可能性的世界,从外语的即时翻译到关于现场事件的沉浸式实时对话。

例如,用户可以将外语餐厅菜单的图像上传到GPT-4o进行翻译,以及菜肴的背景、文化意义和个性化推荐等其他细节。

在未来几个月,OpenAI计划进一步增强GPT-4o的能力,以实现更自然和实时的交互。这将扩展到用户可以向ChatGPT展示直播体育比赛并要求其澄清游戏规则的场景。值得强调的是,ChatGPT的免费和付费用户现在都可以访问OpenAI的GPT-4o,付费用户享受的消息限制高达5倍。此外,即将在ChatGPT Plus中发布的语音模式alpha版本,以GPT-4o为特色,承诺进行更多身临其境的交互。开发人员现在可以通过API利用GPT-4o的扩展功能,利用其高级文本和视觉模型。

GPT-4o:仿人人工智能交互的下一个前沿

GPT-4o最显著的特征之一是其类似人类的声音和对话技巧。它的声音反映了情感,并无缝地调整语气,无论是讲笑话还是表达同情。让GPT-4o与众不同的是它对谈话中的中断和话题变化的适应性,复制了人类交流的流动性。值得注意的是GPT-4o的响应时间,与人类平均320毫秒的对话速度相当。在演示中,GPT-4o(“o”代表“omni”)展示了一个类似美国女性的声音,让人想起斯嘉丽·约翰逊在《她》中的形象。虽然OpenAI的研究人员在演示过程中短暂地切换到了机器人语音,但他们澄清说,音频输出最初将仅限于精选的预设语音。

GPT-4o的能力超越了随意的交谈,擅长解释图表和协助编码等任务,同时保持轻松愉快的语气。它从视频片段中分析周围环境的能力展示了它的适应性和直觉,进一步巩固了它类似人类的品质。虽然竞争对手可能会在机器人反应方面犹豫不决,但GPT-4o像人类一样的举止使其遥遥领先。

OpenAI的尖端多式联运旗舰机型GPT-4o比其前身GPT-4 Turbo拥有令人印象深刻的增强功能。GPT-4o的速度提高了两倍,价格减半,速率限制提高了五倍,为人工智能技术的效率和可负担性树立了新的标准。

OpenAI在人工智能竞赛中的统治地位

OpenAI推出GPT-4o正值人工智能军备竞赛的关键时刻,埃隆马斯克(Elon Musk)旗下的xAI、苹果和谷歌等竞争对手渴望展示自己的进步。然而,GPT-4o展示的纯粹能力使OpenAI毫无疑问地处于领先地位。GPT-4o的性能演示不仅为对话式人工智能建立了新的基准,也巩固了OpenAI在该领域的主导地位。

在人工智能热潮中,有报道称,苹果公司即将与OpenAI合作,将ChatGPT人工智能技术融入其即将推出的iPhone。此次合作旨在加强苹果作为人工智能时代重要参与者的地位,同时扩大OpenAI的覆盖范围和影响力。

(机器翻译,轻度译后编辑,仅供参考)

编辑:刘慧

原文链接

Was it helpful ?