在微软支持的 OpenAI 推出 ChatGPT 一年后,谷歌又推出了 Gemini,试图在人工智能领域重新占据上风。谷歌首席执行官桑达尔-皮查伊(Sundar Pichai)称 Gemini 1.0 是公司 “迄今为止能力最强、最通用的人工智能模型”。
但关于Gemini性能的声明不仅限于与谷歌产品的比较谷歌在一篇介绍性博文中指出,Gemini在”一系列多模态基准测试”上超越了 ChatGPT-4V 的最新性能,包括自动语音识别(ASR)和自动语音翻译。
这两个特定任务以往的最佳模型属于竞争对手 OpenAI 的 Whisper(分别为版本1和版本2)。在这两种情况下,Gemini Pro 的性能都优于 Whisper。(Gemini有三种 “规格”。它们从大到小依次为:Ultra,用于高度复杂的任务;Pro,用于在多项任务中进行扩展;Nano,用于在设备上高效工作)。
在 21 种语言的 CoVoST 2 自动语音翻译基准测试中,Gemini 的 BLEU 得分为 40.1,而 Whisper v2 为 29.1。
谷歌研究人员根据 62 种语言的 FLEURS 基准并使用单词错误率(得分越低表示性能越好)对 ASR 性能进行了评估。Whisper v3 的单词错误率为 17.6%,而 Gemini 为 7.6%。
最强Bard
在谷歌的一次产品更新中,谷歌副总裁兼总经理萧泓(Sissie Hsiao)解释说,Gemini Pro 现已集成到谷歌 GenAI 聊天机器人 Bard 中。
虽然 Gemini 1.0 经过训练可以对各种输入做出反应,包括文本、图像和音频,但使用 Gemini Pro 的 Bard 目前只能处理文本提示,”不久后将支持其他模态”。令人困惑的是,Bard Gemini Pro 的语言功能暂时很有限,据说尽管可以在 170 多个国家和地区使用,但它目前只支持英语。谷歌计划在“不久的将来”将覆盖范围扩展到“更多的语言和地方,如欧洲”。
在撰写本文时,Bard仍能够以多种语言回应提示,包括翻译提示,甚至在一个实例中提供了一个非英语语言的“新单词”列表,以及(大多正确的)音译发音。然而,关于其语言服务的回应在Bard中是不一致的。Bard 也无法通过 ASR 音频处理非英语提示,但它向我们推荐了其他(它说)可以处理的在线工具。
粉丝和批评者
Gemini已经在社交媒体上引发了人们对人工智能,尤其是对谷歌的热议。(投资者也做出了反应,谷歌的股价在发布当天飙升)。
IRS数据管理服务和支持总监亚伦-弗朗西斯科尼(Aaron Francesconi)在 LinkedIn 上写道:“如果说 OpenAI 的 ChatGPT令人 印象深刻,那么谷歌的 Gemini 会让人大开眼界。”
Linus Ekenstam 在 X 上的一个帖子中称赞了谷歌的策略,并获得了超过 1 万个赞:”他们没有跟风炒作,而是专注做某些事情。也许就像亚马逊一样,他们的制胜之道不是做到第一,而是做到最好。”
然而,让埃肯斯坦姆(Ekenstam)称为 “令人瞠目 “的鸭子绘画演示却被 TechCrunch 揭露为 “伪造”。MIT Technology Review 在Gemini发布之际立即提出其“可能标志着人工智能炒作巅峰”的观点。
沃顿商学院教授伊桑-莫利克(Ethan Mollick)也持类似的审慎态度,他在 X 网站上写道:”我们真的不了解Gemini Ultra 。它真的能打败 GPT-4 吗?如果是真的,为什么差距如此之小?”莫利克接着疑惑道:”未能压倒GPT-4是否显示已经接近大型语言模型的极限了。”
不过似乎没有什么能够消减Bard的热情,聊天机器人本身热情洋溢地表示,“初步测试和用户反馈表明,Gemini显著提高了Bard翻译的质量。随着Gemini的不断发展,我们可以期待在准确性、流畅性和整体翻译质量方面取得进一步的改善。”
(机器翻译,轻度译后编辑,仅供参考。)
编辑:刘煜珍