技术科普 | Transformer的影响: 机器翻译问题解决了吗?
发布时间 2024 年 7 月 29 日
By伊琳娜·巴斯卡娅思想领袖
谷歌最近宣布,谷歌翻译将新增 110 种语言,这是其 1000 年推出的 2022 种语言计划的一部分。2022 年初,他们 增加了 24 种语言。加上最近新增的 110 种语言,现在已达到 243 种语言。这种快速扩展得益于 零样本机器翻译 这是一种机器学习模型无需先前示例即可学习将语言翻译成另一种语言的技术。但在未来,我们将共同见证这一进步是否能成为机器翻译挑战的最终解决方案,同时我们可以探索实现这一目标的方法。但首先要讲的是它的故事。
以前是怎样的?
统计机器翻译 (SMT)
这是谷歌翻译最初使用的方法。它依赖于统计模型。他们分析了大型平行语料库(对齐句子翻译的集合),以确定最有可能的翻译。首先,系统将文本翻译成英文,这是将其转换为目标语言之前的中间步骤,并且需要将短语与联合国和欧洲议会记录的大量数据集进行交叉引用。它不同于需要编制详尽语法规则的传统方法。它的统计方法使其能够适应和从数据中学习,而无需依赖可能很快变得完全不必要的静态语言框架。
但这种方法也有一些缺点。首先,谷歌翻译使用基于短语的翻译,系统将句子分解为短语并逐个翻译。这比逐字翻译有所改进,但仍然存在一些局限性,例如措辞不当和上下文错误。它无法像我们一样完全理解细微差别。此外,SMT 严重依赖于平行语料库,任何相对罕见的语言都很难翻译,因为它没有足够的平行数据。
神经机器翻译(NMT)
2016 年,谷歌转向神经机器翻译。它使用深度学习模型一次性翻译整个句子,从而提供更流畅、更准确的翻译。NMT 的运作方式类似于计算机中的复杂多语言助手。使用序列到序列 (seq2seq) 架构,NMT 处理一种语言的句子以理解其含义。然后 – 生成另一种语言的对应句子。这种方法使用大量数据集进行学习,而统计机器翻译则依赖于分析大型平行语料库的统计模型来确定最可能的翻译。与专注于短语翻译且需要大量手动工作来开发和维护语言规则和词典的 SMT 不同,NMT 处理整个单词序列的能力使其能够更有效地捕捉语言的细微差别。因此,它提高了各种语言对的翻译质量,通常达到与人工翻译相当的流畅度和准确性水平。
事实上,传统的 NMT 模型使用循环神经网络 (RNN) 作为核心架构,因为它们旨在通过维护隐藏状态来处理顺序数据,而隐藏状态会随着每个新输入(单词或标记)的处理而演变。这种隐藏状态充当一种记忆,可以捕捉先前输入的上下文,让模型随着时间的推移学习依赖关系。但是,RNN 的计算成本高昂,难以有效并行化,这限制了它们的可扩展性。
Transformer 简介
2017 年,谷歌研究院发表了一篇论文,题为 “你只需要关注” 向世界介绍了 transformer 并标志着神经网络架构从 RNN 的重大转变。
Transformer 仅依赖于注意力机制——自我注意力,这使得神经机器翻译模型能够选择性地关注输入序列中最关键的部分。与按句子中的序列处理单词的 RNN 不同,自我注意力会评估整个文本中的每个标记,确定哪些其他标记对于理解其上下文至关重要。这种对所有单词的同时计算使 Transformer 能够有效地捕获短程和长程依赖关系,而无需依赖循环连接或卷积滤波器。
因此,通过消除重复,Transformer 提供了几个关键优势:
-
并行性:注意力机制可以在序列的不同部分之间并行计算,从而加速在 GPU 等现代硬件上的训练。
-
培训效率:与传统的基于 RNN 或基于 CNN 的模型相比,它们还需要更少的训练时间,从而在机器翻译等任务中提供更好的性能。
零样本机器翻译和 PaLM 2
2022 年,谷歌发布了使用 Zero-Shot 机器翻译对 24 种新语言的支持,标志着机器翻译技术的一个重要里程碑。他们还宣布了 1,000 种语言计划,旨在支持世界上使用最多的 1,000 种语言。他们现在已经推出了 110种语言 零样本机器翻译可以在源语言和目标语言之间实现无需并行数据的翻译,从而无需为每对语言创建训练数据——这一过程以前既昂贵又耗时,对于某些语言对来说甚至是不可能的。
这一进步得益于 transformer 的架构和自注意力机制。变压器模型的能力 学习跨语言的上下文关系,再加上其同时处理多种语言的可扩展性,使得开发更高效、更有效的多语言翻译系统成为可能。然而,零样本模型的质量通常低于在并行数据上训练的模型。
然后,在 Transformer 进展的基础上,谷歌推出了 掌上电脑2 2023 年,为 110 年发布 2024 种新语言铺平了道路。PaLM 2 显著增强了 Google 学习密切相关语言(如阿瓦德语和马尔瓦迪语(与印地语相关))和法语克里奥尔语(如塞舌尔语和毛里求斯克里奥尔语)的能力。PaLM 2 的改进(如计算优化扩展、增强的数据集和改进的设计)实现了更高效的语言学习,并支持 Google 持续努力使语言支持更好、更强大,并适应不同的语言细微差别。
我们是否可以说,Transformer 已完全解决了机器翻译的难题?
我们谈论的演变历时 18 年,从 Google 采用 SMT 到最近使用 Zero-Shot 机器翻译的 110 种语言。这是一个巨大的飞跃,可能会减少对大量平行语料库收集的需求——这是该行业二十多年来一直追求的一项历史性和劳动密集型任务。但是,从技术和道德角度考虑,断言机器翻译已完全解决还为时过早。
当前的模型仍然难以处理上下文和连贯性,并且会犯一些细微的错误,这些错误可能会改变您对文本的预期含义。这些问题在较长、较复杂的句子中非常常见,因为要获得结果,需要保持逻辑流畅并理解细微差别。此外,文化细微差别和习语表达经常会丢失或失去意义,导致翻译可能在语法上正确,但没有达到预期的效果或听起来不自然。
预训练数据: PaLM 2 和类似模型在多样化的多语言文本语料库上进行了预训练,超越了其前身 PaLM。这一增强功能使 PaLM 2 能够在多语言任务中表现出色,凸显了传统数据集对于提高翻译质量的持续重要性。
特定领域或稀有语言: 在法律、医学或技术领域等专业领域,平行语料库可确保模型能够应对特定术语和语言细微差别。高级模型可能难以应对特定领域的术语或不断发展的语言趋势,这对零样本机器翻译构成挑战。此外,资源匮乏的语言翻译效果仍然很差,因为它们没有训练准确模型所需的数据
标杆: 平行语料库对于评估和衡量翻译模型的性能仍然至关重要,对于缺乏足够平行语料库数据的语言来说尤其具有挑战性。BLEU、BLERT 和 METEOR 等自动化指标在评估除语法之外的翻译质量细微差别方面存在局限性。但是,我们人类受到偏见的阻碍。此外,目前合格的评估员并不多,而且很难为每对语言找到完美的双语评估员来发现细微的错误。
资源强度: 培训和部署 LLM 的资源密集型性质仍然是一个障碍,限制了某些应用程序或组织的可访问性。
文化保护。 道德层面意义深远。正如谷歌翻译研究科学家 Isaac Caswell 描述 Zero-Shot 机器翻译时所说:“你可以把它想象成一个通晓多种语言的多语言者。但除此之外,它还能看到 1,000 多种未翻译的语言文本。你可以想象一下,如果你是一个通晓多种语言的人,然后你开始阅读另一种语言的小说,你可以根据你对语言的一般了解,拼凑出它可能意味着什么。”然而,至关重要的是要考虑对缺乏平行语料库的小语种的长期影响,当依赖从语言本身转移时,可能会影响文化保护。
特别说明:本文仅用于学术交流,如有侵权请后台联系小编删除。