在2023年12月18日发表的一篇论文中,来自卡内基梅隆大学和BerriAI的研究人员Syeda Nahida Akter、Zichun Yu、Aashiq Muhamed、Tianyue Ou、Alex Bäuerle、Ángel Alexander Cabrera、Krish Dholakia、Chenyan Xiong和Graham Neubig探讨了谷歌的 Gemini 的翻译能力,并将其视为一种“有价值的工具”。
研究人员解释说,最近推出的谷歌 Gemini 模型是第一个经综合评估在各种任务上与 OpenAI GPT 系列相匹敌的模型。然而,他们指出其一个显著的缺点:缺乏发布的评估细节和模型预测。他们说:“确切的评估细节和模型预测尚未发布,这限制了重现、检查和详细分析结果及其影响的能力,”。
为了解决这个问题,研究人员进行了一个“第三方客观比较”,比较了 OpenAI GPT 和谷歌 Gemini 模型,提供了“可复制的代码和完全透明的结果”。除了翻译,评估还涵盖了其他任务,如推理、基于知识的问题回答、数学问题解决、代码生成和遵循指令。
研究人员将 Gemini Pro、GPT-3.5 Turbo 和 GPT-4 Turbo 与已建立的系统如谷歌翻译进行比较,并将它们与 NLLB-MoE 进行基准测试,后者是一种以其广泛的语言覆盖而闻名的开源机器翻译(MT)模型。
这些模型在20种语言上进行了评估,覆盖了各种资源和难度级别的翻译,特别关注了这些模型在从英语翻译成其他语言(ENG→X)时的表现。为了评估输出,研究人员使用了标准指标,如BLEU和chrF2++。
一个有价值的工具
尽管谷歌翻译在表现上超过了其他模型,在10种语言中表现出色,但语言模型在翻译非英语语言时表现不佳。
GPT-4 Turbo 在性能上展示出与 GPT-3.5 Turbo 和 Gemini Pro 的差异。值得注意的是,与大型语言模型(LLMs)相比,GPT-4 Turbo 在低资源语言上表现出更大的进步,而在高资源语言上,这些大型语言模型之间的性能相似。
Gemini Pro在20种语言中的五种中均表现优于GPT-3.5 Turbo和GPT-4 Turbo,在其中三种语言中取得了最佳表现。然而,在大约10个语言对的情况下,它在信心较低的情景中有响应慢的倾向。研究人员将Gemini Pro在某些语言中的较低性能归因于这种倾向。
经过更仔细的检查,发现在未阻塞的样本中,Gemini Pro 在表现更为自信的情况下略微优于 GPT-3.5 Turbo 和 GPT-4 Turbo。具体而言,在5-shot和0-shot设置中,它分别比 GPT-4 Turbo 高出1.6 chrf 和 2.6 chrf,比 GPT-3.5 Turbo 分别高出2.7 chrf 和 2 chrf。
尽管在翻译某些样本时存在挑战,作者强调Gemini Pro在西里尔文(Cyrillic)脚本上相对于其他脚本的竞争性表现,与其在其他脚本上的表现相反。GPT-4脱颖而出,在各种脚本中都表现优于Gemini Pro和GPT-3.5 Turbo,尤其在使用天城文(Devanagari)脚本的语言中表现出色。
作者总结时建议研究人员和从业者将Gemini Pro视为他们工具包中的“有价值的工具,与GPT-3.5 Turbo相媲美”。
尽管承认存在一些限制,该研究提供了一种透明且可重复的分析,邀请社区探讨和审查研究结果。如果对重现结果感兴趣的话,代码和数据可以在 https://github.com/neulab/gemini-benchmark 找到。
(机器翻译,轻度译后编辑,仅供参考。)
编辑:刘煜珍