测试OpenAI新模型的英文理解能力

分享

其他推荐

图源:OpenAI新闻发布页

OpenAI近期推出的GPT-4o,标志了AI语言模型新时代开启,同时昭示着人类与AI交互方式的大变革。

发布会上,最令人印象深刻的是,人与ChatGPT的实时互动,不受对话干扰影响。

即使演示过程中出现一些小问题,我仍对团队的成果感到惊讶。

演示一结束,OpenAI便向大众开放访问GPT-4o API。

本文将展示我使用自己创建的英语数据集,对GPT-4oGPT-4Google的GeminiUnicorn四个模型的分类能力,分别进行独立分析。

哪些模型在英语理解方面最强?

图源:OpenAI的实时演示现场

GPT-4o的新功能有哪些

GPT-4o中的o 代表Omni模型,这是目前市场上最强大的模型,专门为无缝理解和处理文本、音频、视频所设计。

OpenAI似乎把重点转向了将GPT-4级别的智能工具向大众开放,让免费用户也可以访问GPT-4级别的语言模型。

OpenAI还声称,GPT-4o在超过50种语言中,展现出更高的质量和更快的速度。他们承诺提供更具包容性和全球可访问性的AI体验,且价格更便宜。

OpenAI还提到,付费用户将获得非付费用户的五倍容量。

此外,他们将发布ChatGPT的桌面版本,ChatGPT可以实时在音频、视觉、文本界面上进行推理。   

如何使用GPT-4o API

新的GPT-4o模型遵循OpenAI现有的聊天完成API,使其向后兼容且易于使用。

GPT-4o也可以通过ChatGPT界面使用:

官方评估

OpenAI的博客文章提供了已知数据集的评估分数,如MMLU和HumanEval。

从图表中可以看到,GPT-4o的表现可以被归类为领域内水平最先进的模型,它不仅更便宜、更快,而且前途无量。

在过去一年中,我看到多个模型声称在已知数据集上展现出最先进的语言性能。但实际上,其中部分模型在这些开放数据集上只是进行了部分训练(或过度拟合),导致它们在排行榜上的分数不切实际。

因此,使用较不知名的数据集对这些模型的性能进行独立分析很重要。

我的评估数据集

正如之前的文章所说,我创建了一个主题数据集,我们可以用它来衡量不同大预言模型的分类性能。

该数据集包含200个句子,50个主题,其中部分主题的设置是为了加大分类难度。

我手动创建并标记了英文版整个数据集。

然后,我用GPT4(gpt-4-0613)将数据集翻译成多种语言。

但在这次评估中,我们只评估英文版数据集,意味着结果不应受到使用相同语言模型创建数据集和主题预测的潜在偏见影响。

去看看数据集吧:主题数据集

性能结果

我决定评估以下模型:

  • GPT-4o: gpt-4o-2024-05-13

  • GPT-4: gpt-4-0613

  • GPT-4-Turbo:gpt-4-turbo-2024-04-09

  • Gemini 1.5 Pro:gemini-1.5-pro-preview-0409

  • Gemini 1.0: gemini-1.0-pro-002

  • Palm 2 Unicorn: text-unicorn@001

给定的任务是让语言模型将数据集中的每个句子与正确的主题匹配。

这能让我们计算每种语言和每个模型的准确率和错误率。

由于模型大多数情况下分类正确,我绘制了每个模型的错误率图表。

错误率越低,模型性能越高。

从图表中可以看出,GPT-4o的错误率最低,只有2个错误。

 

还可以看到Palm 2 Unicorn、GPT-4、Gemini 1.5三者与GPT-4o表现接近,展现出它们的强大性能。

有趣的是,GPT-4 Turbo的表现与GPT-4-0613相似。查看OpenAI的模型页面,获取更多关于他们模型的信息。

最后,Gemini 1.0落后了,鉴于其价格低廉,这并不意外。

(机器翻译,轻度译后编辑,仅供参考。)

原文链接

编辑:张湄婕

Was it helpful ?