Google表示Gemini在自动语音翻译方面超过了OpenAI

这两个特定任务以往的最佳模型属于竞争对手 OpenAI 的 Whisper（分别为版本1和版本2）。在这两种情况下，Gemini Pro 的性能都优于 Whisper。(Gemini有三种 “规格”。它们从大到小依次为：Ultra，用于高度复杂的任务；Pro，用于在多项任务中进行扩展；Nano，用于在设备上高效工作）。

在 21 种语言的 CoVoST 2 自动语音翻译基准测试中，Gemini 的 BLEU 得分为 40.1，而 Whisper v2 为 29.1。

谷歌研究人员根据 62 种语言的 FLEURS 基准并使用单词错误率（得分越低表示性能越好）对 ASR 性能进行了评估。Whisper v3 的单词错误率为 17.6%，而 Gemini 为 7.6%。

最强Bard

在谷歌的一次产品更新中，谷歌副总裁兼总经理萧泓（Sissie Hsiao）解释说，Gemini Pro 现已集成到谷歌 GenAI 聊天机器人 Bard 中。

虽然 Gemini 1.0 经过训练可以对各种输入做出反应，包括文本、图像和音频，但使用 Gemini Pro 的 Bard 目前只能处理文本提示，”不久后将支持其他模态”。令人困惑的是，Bard Gemini Pro 的语言功能暂时很有限，据说尽管可以在 170 多个国家和地区使用，但它目前只支持英语。谷歌计划在“不久的将来”将覆盖范围扩展到“更多的语言和地方，如欧洲”。

在撰写本文时，Bard仍能够以多种语言回应提示，包括翻译提示，甚至在一个实例中提供了一个非英语语言的“新单词”列表，以及（大多正确的）音译发音。然而，关于其语言服务的回应在Bard中是不一致的。Bard 也无法通过 ASR 音频处理非英语提示，但它向我们推荐了其他（它说）可以处理的在线工具。

粉丝和批评者

Gemini已经在社交媒体上引发了人们对人工智能，尤其是对谷歌的热议。(投资者也做出了反应，谷歌的股价在发布当天飙升）。

IRS数据管理服务和支持总监亚伦-弗朗西斯科尼（Aaron Francesconi）在 LinkedIn 上写道：“如果说 OpenAI 的 ChatGPT令人印象深刻，那么谷歌的 Gemini 会让人大开眼界。”

Linus Ekenstam 在 X 上的一个帖子中称赞了谷歌的策略，并获得了超过 1 万个赞：”他们没有跟风炒作，而是专注做某些事情。也许就像亚马逊一样，他们的制胜之道不是做到第一，而是做到最好。”

然而，让埃肯斯坦姆（Ekenstam）称为 “令人瞠目 “的鸭子绘画演示却被 TechCrunch 揭露为 “伪造”。MIT Technology Review 在Gemini发布之际立即提出其“可能标志着人工智能炒作巅峰”的观点。

沃顿商学院教授伊桑-莫利克（Ethan Mollick）也持类似的审慎态度，他在 X 网站上写道：”我们真的不了解Gemini Ultra 。它真的能打败 GPT-4 吗？如果是真的，为什么差距如此之小？”莫利克接着疑惑道：”未能压倒GPT-4是否显示已经接近大型语言模型的极限了。”

不过似乎没有什么能够消减Bard的热情，聊天机器人本身热情洋溢地表示，“初步测试和用户反馈表明，Gemini显著提高了Bard翻译的质量。随着Gemini的不断发展，我们可以期待在准确性、流畅性和整体翻译质量方面取得进一步的改善。”

（机器翻译，轻度译后编辑，仅供参考。）

原文链接

编辑：刘煜珍

Was it helpful ?

还有问题？我们能帮忙吗？