在一次机器翻译评估中,生成式人工智能模型的表现优于神经机器翻译引擎

这是否是神经机器翻译范式终结的里程碑?

——LLM 超越了神经 MT 引擎的输出:意义重大吗?

        虽然这次评估的结果是一个突破,但我们还是要正确看待它。它只包括一个语言对的一个模型。在五个 NMT 引擎中,LLM 的表现仅优于一个,而且仅在一种 MT 评估(多参考评估)中表现更好。这项成就还重要吗?那还用说。

虽然从上述背景来看,这一发现似乎并不重要,但值得注意的是,这是自 NMT 出现以来,不同类型的 MT 方法首次击败神经 MT 引擎。此外,一种 “非机器翻译 “方法–并非专门为机器翻译准备的多用途语言自动化–也击败了 NMT 引擎。最后一个细节使 GPT-4 大语言模型超越了 NMT 引擎。

ChatGPT-4 的显著翻译结果对神经机器翻译范式意味着什么?

自 2022 年 2 月以来,我们一直公开质疑 MT 模式在不远的将来发生转变的可能性。请参阅我们的机器翻译跟踪评论,了解我们在此期间对这一主题的更多思考。这些最新的比较结果进一步证明,一些重大变化即将发生。

但不要这么快就下结论。现在就说大型语言模型(LLM)将取代 NMT 引擎还为时尚早,更不用说这种变化已经迫在眉睫。我们需要更多的时间来评估更多的数据。要考虑的因素太多,LLM 技术必须大幅改进,才能成为企业可行的翻译解决方案。

由于 NMT 和 LLM 技术有许多共通之处,范式的改变很可能从 NMT 引擎采用一些 LLM 方法开始。

三种语言对的 NMT 和 LLM 翻译输出如何比较?

        让我们比较一下五种顶级神经机器翻译引擎和一些 GPT 模型在三对语言中的翻译结果。

我们使用多个参考文献,根据反向编辑距离计算出以下语言对的质量水平:英译汉 (EN-ZH)、英译西 (EN-ES) 和英译德 (EN-DE)。

编辑距离衡量的是,为了使翻译结果与人工翻译一样好,人工必须对 MT 输出进行多少次编辑。在计算过程中,我们将原始 MT 输出与 10 个不同的人类翻译(多个参考译文)进行了比较,而不是只与一个人类翻译进行比较。反向编辑距离意味着结果数字越大,质量越好。

图 1 显示,NMT 引擎和 LLM 的反向编辑距离差别不大,这说明它们的表现类似。不过,在英汉语言对中,大语言模型 GPT-4 的翻译质量明显略高于 Yandex NMT。

GPT 模型与主要神经 MT 引擎在英汉语言对中的自动翻译质量比较

        英译西和英译德的翻译结果分别如图 2 和图 3 所示。在这两种情况下,所有神经 MT 引擎的表现都优于 LLM,这也是迄今为止的情况。

正如我们所料,GPT 模型越好,MT 结果就越好,GPT-4 优于 ChatGPT 和 GPT-3。

GPT 模型与主要神经 MT 引擎在英语-西班牙语语言对中的自动翻译质量比较

GPT 模型与主要神经 MT 引擎在英德语言对中的自动翻译质量比较

我可以相信大语言模型可以用于我的翻译作品的专业用途吗?

生成式人工智能仍处于早期阶段,尚未完全发展成熟。因此,它在一些关键领域存在不足。我们的ChatGPT 和本地化白皮书重点介绍了该技术如何无法说出真相、毫无头绪和无法计算。准备好依靠它了吗?慢。

不足之处应引起企业的关注。

可变性

        我们的评估表明,GPT 的输出是可变的。换句话说,每次运行的结果都可能发生变化。您可以从图 2 和图 3 中看到这种现象,即运行一和运行二的结果不同。

我们预期会有这样的结果。然而,在权衡是否将 LLMs 用于专业翻译时,这种可变性是至关重要的,因为预测性是最重要的。

公司在翻译内容时,几乎没有随意性可言。MT 输出必须比目前的生成式人工智能提供的更具确定性。专业 MT 和其他用于专业目的的 LLM 应保持一致性。

        纯粹的确定性结果有悖于生成模型的本质,因为在生成模型中,假设了一定程度的创造性或可变性。这种情况在某些情况下是可以的,甚至是可取的,但并非所有情况都是如此。除了使用 “温度 “设置,即本应控制 LLM “创造性 “的设置外,还必须有一个控制变异性的机制。

控制生成模型变异性的最佳方法尚不明确。也许用户可以通过一些预定义的提示和特定任务的组合设置来解决这个问题,但还需要一个更具体的解决方案。

缺乏可预测性与大部分业务应用程序不匹配。

应用程序接口不稳定

当前 LLM 的另一个问题是应用程序接口 (API) 的不稳定性。

大多数生成式人工智能应用仍处于早期部署阶段。巨大的需求导致其应用程序接口被大量使用。这些因素结合在一起就会产生问题。这种情况很明显,因为人们在使用这些应用程序时遇到的问题比使用其他更成熟的技术时更多。

错误

我们在 LLM MT 输出中发现了一些准确性问题,这些问题要么在 NMT 输出中不存在,要么存在但比例要低得多。

这些问题包括幻觉,即编造的术语或原文中未出现的术语,或与原文一致有关的一致性问题。(这可能包括语法性别为阴性的形容词或定语与语法性别为阳性的名词配对,反之亦然)。

如表 1 所示,在翻译过程中,LLM 在目标语西班牙语中使用了罕见且可能过于口语化的单词 “marketeros”。准确的翻译是 “responsables del marketing”。法律硕士们在德语和汉语的目标语言中也犯了类似的错误。监控MT 灾难性错误尤为重要,因为根据错误的严重程度,品牌可能面临声誉、财务或法律方面的影响。

表 1.LLM MT 输出中的 “发明 “或 “幻觉 “术语示例:

来源 作为营销人员,我们都渴望给全球蓬勃发展的文化带来惊喜、愉悦和联系。
目标 作为市场营销人员,我们都渴望让人惊奇,让人删除,并让我们与一种全球的、前卫的文化联系起来。
评论 应该是”responsables del marketing”
        如表 2 所示,LLM 在翻译所有三种目标语言时都出现了一致或字符错误。例如,它提供了西班牙语中 “other “一词的阴性版本,而该词本应是阳性版本。这类错误可能会削弱消费者对品牌的信心。

表 1.协议和字符错误示例。

类别 协议错误
来源 该城市文化中心是该市最好的音乐会场馆之一,定期举办独立摇滚、电子音乐、金属和其他现代城市音乐流派的最著名表演。
目标 El centro de cultura urbana 是这座城市最棒的音乐会场所之一,定期邀请独立摇滚乐、电子音乐、金属音乐和其他现代城市音乐领域的著名艺术家前来演出。
评论 应为阳性(”otros“)

结论这是 NMT 范式终结的开始吗?

这并不是 NMT 范式终结的开始;如前所述,NMT 已经成熟的迹象以及 MT 范式转变的可能性已经存在了一段时间。我们现在正朝着这个目标不断前进。

如图 4 所示,我们注意到排名前五的 NMT 引擎的质量开始趋于平缓,没有大的改进,我们开始质疑该范式目前的主导地位是否即将终结,图 4 使用反编辑距离测量了 2018 年 5 月至 2022 年 12 月期间德语、西班牙语、俄语和汉语排名前五的 NMT 引擎的输出质量。

神经 MT 引擎的性能

        2022 年期间,质量几乎没有提高,这让我们得出结论认为,国家测绘局遇到了瓶颈,因为在国家测绘局之前的核心范例–统计范例–结束时也发生了类似的情况。Lionbridge 机器翻译跟踪器是业界对主要 MT 引擎进行衡量的历史最悠久的工具,它提供了对五个 NMT 引擎性能的更多了解。

虽然生成式人工智能模型在翻译质量方面的最新进展可能会进一步推动我们所熟知的 NMT 范式的终结,但这项技术还有很长的路要走。

大多数生成式人工智能应用仍处于早期部署阶段。诸如我们上文强调的问题必须得到解决,而且正在得到解决。我们已经看到正在以令人惊叹的速度进行改进。在我们对 ChatGPT-4 的最新测试中,其中一些问题已得到修复。LLM 令人难以置信的改进速度支持了这样一种观点,即 LLM 将成为机器翻译的下一个范例。

我们预计神经 MT 提供商更有可能将 LLM 的某些方面整合到 NMT 架构中,而不是随着范式的发展,LLM 完全取代当前的范式。当 MT 行业从基于规则的 MT(RBMT)转向统计 MT(SMT)时,我们也看到了类似的混合时期。

翻译人员对生成式人工智能的翻译性能印象深刻吗?

人类译员如何看待生成式人工智能?由于神经 MT 引擎目前存在的不足,人类评估人员在比较了神经 MT 引擎和 LLM 的性能后表示,与 LLM 的输出相比,他们仍然更喜欢神经 MT 的输出。毫无疑问,生成式人工智能将继续发展,我们将帮助您紧跟日新月异的进步。

https://www.lionbridge.com/blog/translation-localization/machine-translation-a-generative-ai-model-outperformed-a-neural-machine-translation-engine/

(机器翻译,轻度译后编辑,仅供参考)

编辑:方文娟

资讯要点:虽然大型语言模型(LLM)在某些情况下已经超越了神经机器翻译(NMT)引擎的输出,但NMT范式尚未结束。LLM在翻译质量、一致性和稳定性方面仍需改进,而NMT引擎可能会逐渐整合LLM的技术,而不是被完全取代。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注