在2024年3月4日的一篇论文中,来自谷歌(和Verily Life Sciences)的研究人员挑战了先前研究中流行的预翻译范式。相反,该团队的论文主张大型语言模型(LLMs)中直接推理的好处。
基本上,“直接推理”意味着理解和处理源语言的输入数据,直接在相同语言中生成响应或输出,而无需将其转换为英语或任何其他中间语言。
尽管承认了先前强调预翻译在优化LLM性能方面的重要性的研究,研究人员强调了LLMs的最新进展,比如在广泛的多语言数据集上训练的PaLM2,这些进展表明了在非英语输入上实现直接推理的潜力。他们的主要目标是确定预翻译是否仍然对于最优LLM性能是必要的,特别关注PaLM2,该模型以其在多语言任务中的高性能而闻名。
“通过揭示PaLM2在直接推理方面的优越性并提供强大的评估工具,我们旨在激发进一步超越预翻译的LLM发展,为无缝的多语言交流铺平道路,”他们说。
该团队对直接推理和预翻译使用PaLM2模型在多种语言中进行了全面的比较分析,涵盖了多种歧视性和生成性任务。分析包括108种语言和六种不同的基准测试,涵盖了像多项选择问题回答和推理这样的封闭任务,以及文本生成用于属性问题回答和摘要这样的开放任务。
有限的探索
在封闭任务中,模型从预定义的选项中选择正确的答案,重点是特定信息检索或确认。开放任务通过要求模型生成文本来评估模型的生成能力。属性问题回答评估了模型在回答自然语言问题方面的准确性,而文本摘要将长篇文本压缩成传达基本信息的简洁片段。
研究人员指出,最近的研究已经探讨了预翻译对歧视性任务的影响,但对LLM的生成能力的影响进行了有限的探索。
预翻译流程涉及将源语言的输入问题翻译成英语,对其进行处理,然后将生成的答案翻译回源语言。相反,直接推理流程涉及直接在源语言中处理输入,而不需要任何翻译,并在源语言中生成答案。
语言真实性
研究人员评估了两种PaLM2变体:PaLM2-S(Bison)和PaLM2-L(Unicorn)。对于预翻译,他们使用了Google翻译API。结果显示,在使用直接推理时,PaLM2模型在108种语言中有94种的表现优于预翻译方法。
然而,预翻译在七种语言中始终表现出优势:班巴拉语、库斯科-科亚奥克丘亚语、林加拉语、奥罗莫语、旁遮普语、提格里尼亚语和宗加语。所有这些语言都是低资源语言(LRL),其中七种中有四种是非洲语言,这表明在创建多语言训练集时需要特别关注,特别是对于非洲语言。
进一步针对低资源语言的分析表明,虽然在这些语言中使用PaLM2进行直接推理可能会面临挑战,但超过85%的语言实际上从直接推理中受益,其中大多数语言的性能有了显著改善。这表明观察到的性能差异可能具有地区性起源,强调了进一步调查的重要性,以及在多语言任务中增强模型性能的定制方法的必要性,特别是针对特定语言族群和地区。
研究人员得出结论称,“这些发现为更高效、更有效的多语言应用铺平了道路,减轻了与预翻译相关的限制,并释放了语言的真实性。”
作者:Matan Halfon、Roman Goldenberg、Reut Tsarfaty、Matan Eyal、Ehud Rivlin、Yossi Matias、Natalia Aizenberg
(机器翻译,轻度译后编辑,仅供参考)
编辑:刘煜珍