持续创新
今年早些时候,我写了一篇关于塑造翻译行业的三波技术创新浪潮的文章。这三波浪潮是翻译记忆、翻译管理系统和神经机器翻译。每一种技术都提高了翻译的效率:翻译记忆帮助减少了翻译重复文本所花费的时间和精力,翻译管理系统允许翻译资产的集中和工作流程的优化,神经机器翻译提供了翻译的初稿,这样就不必从头开始翻译新内容。
这三种创新最有趣的一个方面是它们是相互关联的。翻译记忆库技术使翻译人员非常高效并且使批准翻译的数据库非常有价值,因此,为了充分协调前者的任务分配,优化后者的利用,必须引入一种新的解决方案类别。而且,虽然翻译记忆为翻译管理系统创造了空间,但翻译管理系统通过扩大其在多个团队、供应商和内容类型之间的影响力,使翻译记忆变得更好。同样,机器翻译使翻译记忆更有价值,因为它现在不仅可以用于直接杠杆,而且可以作为自适应机器翻译模型的高质量训练输入的来源。
然而,早在今年1月我写这篇文章的时候,另一波科技浪潮就已经很明显了。一种新型的自然语言处理引擎,被称为大语言模型,正被介绍给多样化的全球用户社区,这是第一次不局限于像自然语言处理研究人员或工程师这样的专家。OpenAI于2022年11月发布的ChatGPT是另一项技术创新。它将GPT大语言模型包装成一个简单、直观的界面,围绕自然对话的概念构建,从而使任何能够读写的人都可以访问它们。随之而来的是许多不同的大语言模型的迅速扩散,如Google Bard, Anthropic Claude, TII Falcon, Meta的LLAMA等。
我们现在正在经历的是一场加速的人工智能革命,主要是由大语言模型的新兴能力驱动的,这导致它们被广泛使用,并伴随着不可避免且巨大的炒作。我没有确切的数据,但可以肯定的是,ChatGPT目前的用户群超过2亿,涵盖所有行业和企业功能。除此之外,还有像Google Bard或Bing Chat等竞争平台的用户,以及开源大语言模型的用户。
有了这种规模的采用——或者我们应该说是实验——收到各种各样的想法、用例、希望和关注就不足为奇了。在我能想到的几乎所有行业中,人工智能都有其支持者和反对者,有时代表着极端的观点,从“大语言模型是知识的现代先知”到“大语言模型只是随机的鹦鹉,会产生令人信服的噪音,但不能理解任何事情”。尽管这些讨论可能很有趣,但一旦我们把它们排除在外,出现的问题就是实际的、现实生活中的应用程序,以及由特定行业和用例规定的需求。如何利用这场正在展开的人工智能革命来改进现有的解决方案,以实现更好的结果?
意想不到的后果
在翻译行业,大语言模型的初步实验涵盖了广泛的用例,从生成特定领域的内容,到术语管理、性别偏见纠正、翻译记忆数据清理、注册或风格调整,一直到翻译。对于一些实验者来说,最后一个想法是最有吸引力的。毕竟,大语言模型比专门构建的机器翻译模型要大得多,所以它们的性能一定更好,对吧?好吧,这种不切实际的想法很好,但如果我们不能将其转化为实际的变化,它就没有用了——而不可预见的后果往往会导致灾难。我记得一个这样的早期例子,一个客户试图用大语言模型取代专用的神经机器翻译系统,希望利用它的常识和广泛的上下文窗口,在没有人为干预的情况下实现更相关和一致的翻译。客户与我们分享了他们的一些实验,经过更仔细的检查,我们发现了我称之为谄媚翻译的实例,在这种情况下,模型产生了它认为是最可接受的翻译文本,即使它没有准确地反映源文本。在一个这样的例子中,源语段包含对属于我们客户品牌的产品的引用。大语言模型不知道如何将该产品名称翻译成目标语言,因此它选择了不同的策略:它正确识别产品类别,从不同的制造商中选择类似的产品,并将其插入翻译的句子中。因此,尽管模型的常识和广泛的上下文窗口在生成翻译中起着至关重要的作用,但结果并不完全是我们的客户所期望的。这让我想起了小学时读过的Stanisław Lem的一个短篇故事。在这个故事中,工程师特鲁尔建造了一台机器,可以创造任何以字母n开头的东西。一切都很顺利,直到他的朋友克拉帕丘斯要求机器创造“nothing”,于是情况迅速加速走向世界末日的结局。
我认为这个教训对我们来说是双重的:首先,仔细考虑你的用例。了解新技术最擅长的是什么,并将其应用于可以在不破坏整个过程的情况下改善结果的地方。了解您正在解决的挑战,定义当前的边界,现有解决方案无法交付的地方。其次,如果您将创新引入到已建立的工作流、过程或平台中,请确保您保留了与解决方案其余部分相同的治理级别。对于大语言模型来说,这是最初两个挑战中较大的一个。企业级翻译解决方案需要安全性、可控性、可靠性和自定义级别,如果您将其他人的应用程序编程接口包装到您自己的应用程序中,特别是如果解决方案的核心是您无法控制的模型,则很难实现这些级别。如果期望由您的解决方案处理的数据不是您的,而是由您最有价值的客户委托给您的,那么风险非常高。
最新前沿
在翻译行业,目前的前沿——现成的解决方案还不能完全提供改进,是对人工干预的持续大规模需求。当然,在过去的几十年里,这个领域有了巨大的进步,就像我一开始提到的。但现在,专业语言学家的角色发生了重大变化:他们的任务集中在译后编辑和审查机器输出。这就是为什么业界的主要声音呼吁从翻译角色到语言专家的职能转变。
随着机器翻译的进步,针对特定领域、内容类型和用例的可定制性越来越强,重点越来越转向两个关键任务:首先,确定翻译的哪些部分可能需要改进。其次,利用这种洞察力将精力集中在这些领域,以实现期望的增强。如果这一观察与你产生了共鸣,那么紧迫的挑战就变成了:我们如何将这两项任务演变成一个更自动化的过程?我们如何建立一个技术解决方案,推动翻译超越目前的限制?
引入Evolve
这正是我们之前在RWS问过自己的问题。我们如何建立一个系统,将过去和现在最好的创新结合起来,使译后编辑过程自动化,从而将新的创新浪潮带入行业?大语言模型的出现以及对一般语言模型的研究,有助于提供答案。
前面,我简要地提到了BERT和早期GPT技术作为语言模型的例子。有趣的是,它们的特定神经结构使它们非常适合特定类别的任务,这些早期的语言模型为今天可用的技术铺平了道路。如果您看一下它们的名字,您会注意到BERT和GPT都有一个共同的元素—Transformer。Transformer是一种神经网络架构,专门用于处理顺序数据,比如文本或时间序列。与以前按顺序处理数据的模型不同,Transformer可以一次查看数据的所有部分,这使得它们能够更快地理解复杂的关系和上下文。他们使用一种叫做“注意力”的机制来做到这一点,这种机制可以帮助模型根据当前的目标专注于数据的不同部分,比如在语言之间进行翻译,总结段落,或者根据提示生成文本。Transformer彻底改变了自然语言处理领域,是该领域使用的许多现代人工智能系统的支柱。事实上,虽然第一个神经机器翻译系统是基于递归神经网络架构的,但自引入以来,当前的神经机器翻译系统越来越多地使用Transformer。Transformer模型具有注意机制和同时处理整个序列的能力,已被证明对复杂的翻译是非常有效的。这种架构允许神经机器翻译系统更好地捕捉细微差别和上下文,从而在各种语言之间实现更准确和流畅的翻译。
然而,虽然最初的BERT和GPT模型都使用了Transformer体系结构,但它们在许多方面也有显著的不同。BERT中的E代表编码器,而GPT主要是基于解码器的体系结构。在高级语言模型中,编码器是执行深度语言分析的组件。它检查输入文本以辨别其含义、结构以及单词和短语之间的关系,有效地将输入的本质编码为复杂、抽象的表示。解码器是解释这种抽象表示的生成对应物。它根据在训练中学习到的模式,预测接下来最可能出现的单词序列。它不只是重复它所看到的;它生成的新内容在上下文和语法上都是一致的。
虽然这两个组件可以串联工作,例如在用于翻译等任务的序列到序列模型中,但某些模型只专注于一个方面。GPT就是这样一个模型,它只使用解码器部分来完成文本生成任务,而BERT则利用编码器部分来理解和处理需要深入理解语言的任务的输入文本,例如问答、命名实体识别或质量估计。
这给我们留下了一个令人兴奋的可能性领域。我们有编码器或解码器模型,比如神经机器翻译引擎,我们有可以告诉我们输入文本的编码器模型,我们有可以生成文本的解码器模型。你可能会看到这是怎么回事——我们可以使用三种不同的架构,并针对不同的任务对它们进行优化:一个用于翻译,一个用于文本分析,一个用于文本生成。如果我们把它们放在一起,这样我们就可以自动翻译输入文本,然后自动检测需要改进的区域,然后自动重写标记的部分来改进它们,会怎么样?
这正是我们在语言编织进化中所做的下一代功能。它结合了三种人工智能驱动的技术来解决机器翻译译后编辑的挑战。这三个组成部分是:
带有自适应语言对的神经机器翻译——这项来自language Weaver的技术已经在市场上证明了自己。它经过优化,可以在所需的语言组合中以安全和可扩展的方式提供相关翻译。它还能够持续地从外部输入中学习。这些输入可能包括翻译记忆库数据、双语词典和后期编辑提供的实时反馈。拥有相关双语内容的客户也可以预先对Language Weaver语言对进行培训。
机器翻译质量评估——基于语言模型,这个自动评估引擎被设计用来自动检测和标记低质量的翻译。有趣的是,在我们的实现中,它可以在文档和片段级别上做到这一点-但对于Evolve,我们专注于自动标记每个翻译句子为好,足够或不好-这样我们就知道在哪里集中改进工作。
最后,一旦我们知道需要改进的地方,第三个组件就到位了。它是一个基于大语言模型的自动后期编辑引擎,我们使用与机器翻译和机器翻译质量评估服务相同的基础设施来安全地托管它。
我们不是直接把蹩脚而恰当的句子发给人类语言学家,而是给机器一个改进它们的机会,然后反复编辑,直到我们得到一个更好的分数。系统在每次自动编辑后重新运行机器翻译质量评估过程,以测试翻译是否得到了改进。
(机器翻译,轻度译后编辑,仅供参考。)
编辑:曾钰璇