语言技术的新时代已经来临,但在半明半暗之中,语言学家和商界领袖们仍在憧憬着这个时代的具体面貌。
在大型语言模型(LLMs)问世之前,神经机器翻译(NMT)定义了计算机辅助翻译的工具集。在某种程度上,现在亦是如此。这就是为什么LLMs的出现对语言行业造成了核爆般的冲击——每个人都知道世界将永远改变,但没有人能确切地说出会如何改变。
不过,我们还是可以猜测一下谁会定义这场对话,当然,我们的目光转向了世界上最大、最有影响力的语言公司,从中寻找线索。考虑到关于NMT和LLMs的最佳实践问题时,《MultiLingual》杂志联系了其中几家主要公司,并收到了来自Bureau Works、LILT、Lionbridge、memoQ、Pangeanic 和 Translated 的回复。
综合他们的回复,我们得出了一些引人入胜的见解。
一般来说,整个语言服务行业都认为,自适应机器翻译 (MT) 是实施定制化MT解决方案最快捷、最简单的方法。由于它能实时适应遗留数据,因此无需培训和维护,它就能提供高质量的高度定制化模型。
尽管有这些优势,自适应MT市场仍然很小, 但最近市场变化非常活跃。 LILT是一个成熟的玩家,RWS对Language Weaver进行了改进,SYSTRAN的模糊匹配自适应技术已集成到memoQ和XTM产品中,ModernMT正逐步走向成熟,其“人在环路”(human-in-the-loop)功能甚至因其有效性而受到语言学家的广泛赞誉。
然而,事实证明MT模型的训练非常繁琐。使用双语数据进行训练既昂贵又耗时,而且难以控制。如果经过一轮广泛的训练后,您的模型仍表现不佳,您该怎么办?如果贸然使用MT词汇表,可能会弊大于利。
这就是许多公司急于利用大型语言模型LLMs的原因。从Bureau Works和Crowdin到Smartling和Transifex,翻译管理系统 (TMS) 提供商纷纷添加了由LLMs驱动的翻译功能,而memoQ也在逐步推出自适应生成翻译。谷歌与 Welocalize(以及其他一些公司)合作,对其自适应LLM翻译解决方案进行评估。SYSTRAN被ChapsVision收购,并声称:“在这个新的人工智能时代,小企业更难跟上步伐, 因此最好的选择往往是与其他企业联合, 做大做强”。 而Unbabel 宣布推出Tower,这是一款基于Meta的Llama 2的多语言LLM,用于特定的翻译任务。Pangeanic也紧随其后推出了ECO LLM。
此外,IBM还宣布淘汰其神经机器翻译(NMT)服务Watson Language Translator,鼓励用户迁移到——猜猜是什么?——WatsonX大型语言模型(LLMs)。此举使IBM成为首批淘汰NMT服务、专注于LLMs自动翻译的科技巨头之一。
显然,我们的行业已经迈出了重要一步,推广大型语言模型(LLMs)及其灵活的适应技术为自动翻译的新标准。 虽然人们可以从语言技术的现状中得出自己的见解,但还是值得听听行业领导者的观点。幸运的是,他们在这方面的想法并不匮乏。
本地化行业已经见证了多种类型的定制化MT:根据双语语料库训练的模型、词汇表、自适应MT,以及现在通过LLMs实现的基于提示的MT。 您认为定制化MT的最佳方法是什么?
Bureau Works(创始人兼首席执行官Gabriel Fairman):最佳方法就是我们所说的“语境敏感性”,即利用LLMs的分析和预测能力。我们采用检索增强生成(RAG)框架来检查文本,并在翻译记忆库(TMs)、词汇表、MT存储库、工作单元和偏好中查找相关语境。在检索到语境后,我们会有一个动态系统,它根据语境的相关性使用各种元数据(包括作者、创建日期、过去确认的时间和语义可信度)对其进行排序。然后,我们将这些语境输入一个LLMs群组,这些LLMs作为仲裁者对所有这些语境中最可能的结果提出建议。然后,该建议将通过格式化过滤器并返回给翻译编辑器。该方法最有可能产生译者数字孪生,因此也最有活力、 最有效。 由于所有知识都存储在TMs和词汇表中,不需要对实例进行微调,因此也易于扩展和管理。
Translated(技术布道者Kirti Vashee):使用翻译技术使企业能够大规模使用多种语言的商业目标是改善全球客户体验,推动国际市场的成功。所使用的技术必须具有可扩展性、响应性、可靠性和成本效益,同时还要在大量的语言组合中产生高质量的输出。迄今为止,自适应MT技术已被证明是最有能力的技术推动者。最近,我们有证据表明,LLMs(如果实施得当)可以提高语言的流畅性,并提升部分语言的整体质量。但是,我们尚未看到该技术能够满足上述其他生产需求。
我们预计,在不久的将来,LLMs将成为可行的企业翻译解决方案。这可能会在我们转向专门为翻译而训练的特定任务LLMs时实现。这些模型将比现在的大型基础模型更小,更易于部署和维护。
在此期间,LLMs和传统的MT方法可能会并行使用。不过,除非使用两种不同的生产流程对关键语言有显著优势,否则大多数企业可能更倾向于使用单一的集成解决方案。
一般来说,技术的选择总是次要的,重要的是对全球客户产生可衡量的积极影响。MT质量差异必须与延迟、吞吐量和成本现实相平衡。首选解决方案可能是在生产场景中提供可靠、一致、高质量和高成本效益部署的技术。
LILT(Growth副总裁Allison Yarborough):LILT将所有这些方法结合在一起(我们认为这种方法是最好的);我们在翻译人员工作时,在双语语料库上进行针对TMs和在线的自适应MT培训,在翻译算法中使用词汇表,并将类似于LLM提示的翻译样本集成到MT系统中。每种方法都有其优缺点,但我们发现结合使用效果最佳。
Lionbridge(首席技术官Marcus Casal):虽然定制化MT没有放之四海而皆准的方法,但有新方法可以改善其效果。传统的定制方法包括针对特定品牌、领域或其他用例训练基础模型,但对这种特定程度的需求有限。随着LLMs的兴起,我们发现了一种新方法:使用LLM来改进基础MT引擎的输出,而不是定制引擎本身。
本质上,通过精心调整的战略性提示流程,我们可以提示LLM检查翻译质量,并根据词汇表和受众等特定要求对其进行改进。我们发现,将基准MT引擎与高度针对性的LLM提示策略相结合的两步流程具有很大价值,可实现定制翻译的准确性和流畅性。当然,这是一个提示流程,在不同角色、源语言/目标语言/双语语言之间反复提示,以达到预期效果。
memoQ(首席布道者Florian Sachse):通过LLMs推广基于机器翻译(MT),将强大的语言编码(结构、语法、语气语调)与高度相关的领域信息相结合,这些信息可以在提示中提供。对于某些语言而言,LLMs仍需通过提供更多数据来加以改进。但对于许多一级语言来说,LLMs可以生成流畅且语法正确的内容。提高生成内容的正确性将取决于提示工程和上下文信息,在我们的案例中,上下文信息通常来自TMs(翻译记忆)和术语。提高翻译质量不是通过重新训练LLM来实现,而是通过改进提示予以实现,因为提示更加可预测和可控。如果可预测性和可重复性(连续的工作流程)是关键,那么这是最有效的方法。
Pangeanic(创始人兼首席执行官Manuel Herranz):2024 年,定制化MT的最佳方法仍然是NMT。我们已经达到了平行语料库的可用性水平,能够以非常经济的成本创建MT引擎。它的扩展性很好,可以通过多种方式进行调整。在 Pangeanic,我们提供了向基础模型注入数据的功能,该模型具有三个级别的攻击性,可在几分钟内定制模型。其他公司则是“即时”进行——这是一个极具吸引力的概念,但也是积累和传播“即时”错误的方式。严肃而专业的工作流程总是要求在将TMX文件注入自适应NMT引擎进行再训练之前对其进行人工验证。 与基于LLM的翻译相比, NMT的运行成本要低得多。 对于特定的目标, 如电子商务、含有大量会话表达的字幕、软件和医疗保健,它的“可控性”更强。
事实证明,基于提示的翻译正变得越来越受欢迎,它有利也有弊。其最大的缺点是输出缺乏控制。我们不要忘记,大型语言模型(LLMs)是生成式人工智能(GenAI)。在科学和工程领域,我们习惯于应用相同的公式得出相同的结果。我们都知道,向LLM提出同样的问题并不一定能保证得到相同的翻译结果。如果您偶尔有翻译需求,比如翻译一封电子邮件,这还不错。但是,如果您试图在充分尊重术语和风格的前提下,大规模、持续地采用基于LLM的翻译,那么LLM 似乎有自己的想法。
所有独立的机器翻译(MT)公司以及翻译管理系统(TMS)公司都在努力将GenAI纳入其工作流程,但没有任何保证或定制,仅提供提示是不够的。某种诱惑会让人以为,在获得10次正确结果后,所有翻译都会没问题,且基于LLM的翻译也会像神经机器翻译(NMT)那样工作,但事实并非如此。
我们已经测试了纯粹基于提示的LLM翻译, 除非您有针对翻译任务训练的特定模型、 巧妙且经过尝试的提示以及成熟的工作流程,否则它将生成自由版本,而不是“准确”的翻译。简而言之,在双语语料库和词汇表上训练的模型非常有效,而且相关和充足的数据可广泛应用–至少在主要语言中是这样。如果有充足且定期更新的训练数据,自适应MT可以进一步提高质量。
然而,使用LLMs的基于提示的机器翻译(MT)能提供更自然和与上下文更相关的翻译,尤其是在特定领域的训练数据有限或不存在的情况下。LLM翻译非常适合即兴翻译日语 <> 西班牙语或波兰语 <> 普通话,我确实看到了它的价值。
那么,我们还能坚持使用神经机器翻译(NMT)多久呢?我敢说不会太久。我设想,GenAI系统将以类似或更高的成本,通过单个应用编程接口 (API) 连接提供更多自动化功能,并受益于GenAI的流畅性和大规模的上下文后期编辑 (PE)。
尽管翻译记忆库(TMs)经常被认为已经过时,但他们仍然是许多本地化项目的主要语言资源。在GenAI时代,翻译记忆库(TMs)将扮演什么角色?
Bureau Works:翻译记忆库(TMs)是语境的绝佳来源。它们将继续发挥重要作用,且变得更易于维护和扩展。
Translated:在根据用户需求调整模型输出方面,翻译记忆库(TMs)将继续发挥重要作用。 对于所有数据驱动的机器翻译(MT)方法(从统计机器翻译(MT)开始)而言,翻译记忆库(TMs)一直至关重要。然而,数据质量也很重要。与匹配-利用最大化相比,对TM 维护的关注要少得多。我们需要更多关注数据清理和数据优化,以便用于提示、RAG(检索增强生成)和其他对LLMs及其他技术有益的流程。人工智能从数据中学习,更相关的数据通常会产生更好的结果。并非所有的翻译记忆库(TMs)都是等同的,经过人工审核和质量认证的翻译记忆库(TMs)始终更有用。
在未来,目前尚未广泛使用或可用的元数据(如来源、质量、领域)可能会变得更加重要,因为优化将基于对下游人工智能流程的实用性和相关性,而不仅仅是目前最常见的简单字符串匹配。合成数据的创建也可能变得更加重要,而这在很大程度上取决于种子数据的质量和分类效率。
LILT:翻译记忆库(TMs)提供训练数据,而模型的准确性很大程度上取决于用于训练模型的数据质量。如果用高质量的数据来训练模型,就会产生较好的输出结果;如果用低质量的数据来训练模型,就会产生较差的输出结果。同样的原则也适用于TMs:如果TM质量高,则是训练模型的有用数据源;如果TM质量差,则不应使用它来训练模型。LILT会针对每个客户和每种语言微调一个定制的模型,客户的TMs是微调和定制客户偏好、语气和术语的数据源。用于微调模型的数据源类型很可能会扩大;值得注意的是,已经有一些应用层和工具可以实时捕捉人类反馈(如LILT平台),以创建一个实时的模型训练周期。TMs在一致性方面也具有价值,特别是在精确匹配和近似精确匹配方面。随着时间的推移,与GenAI的建议相比,我们可能会看到“低模糊度”匹配的建议被贬值(假设语言学家可以同时访问两者)。由于“低模糊度”匹配的有用性通常已被高估,因此我们并不认为这是一个糟糕的转变。
Lionbridge:虽然翻译记忆库(TMs)在降低翻译成本和维持特定领域内的一致性方面表现出色,但本地化的未来在于其与机器翻译(MT)和大型语言模型(LLMs)的协同作用。尤其令人兴奋的是,利用大型语言模型(LLMs)来提高TM质量,可以提升翻译记忆库(TMs)的价值主张。
生成式人工智能(GenAI)可以帮助解决传统翻译记忆库(TMs)面临的一些挑战,如内容过时的问题。例如,即使正式的称呼方式已不再使用,它们仍然可能存在于翻译记忆(TM)中。手动修复这些不一致之处既费时又费钱,但是,通过使用复杂的语言提示和迭代方法,GenAI可以可靠且经济高效地更新翻译记忆(TM)。不过,这需要对所翻译的语言和领域都有深厚的专业知识。
我认为这仅仅是个开始。GenAI有潜力为现有的语言资产增添动力,释放它们的潜力,使本地化更加高效和有效。
memoQ:翻译记忆库(TMs)将是提供优质翻译的关键。我们的研究表明,经过翻译记忆(TM)扩充的提示可以从大型语言模型(LLMs)中获得与定制机器翻译(MT)系统相媲美的翻译。该方法为那些关心他们所维护的翻译记忆库(TMs)的语言学家带来了更多的控制权和价值,并使任何语言学家都能从MT中获益。他们只需要做好自己的工作:维护TMs和术语。
Pangeanic:当特定领域的训练数据有限时,基于提示的模型是一个不错的选择。这正是我所看到的技术和工作流程的巨大价值所在,否则这项技术和流程就会日渐过时。这可能不是一个很受欢迎的说法,但除非翻译管理系统(TMSs)包含真正革命性的内容,否则那些旨在接收文件(然后由基于TM的系统进行处理)的系统几乎没有什么价值可言,而项目经理则会因为翻译匹配而节省翻译成本。
我们多年来建立的TMs是极好的资源(适用于机器学习的平行语料库),因此我们可以“驯服”而不仅仅是微调大型语言模型(LLMs),以产生期望的结果。
语言数据管理(LDM)原本有望在2016-2017年大型神经机器翻译(NMT)大潮之后成为一项核心服务(或许还能带来丰厚的利润),但它在语言行业从未真正起步。语言数据管理(LDM)是否会重新崛起,以微调大型语言模型(LLMs)和/或丰富随机访问生成(RAG)机制?
Bureau Works:过去,更大的语料库意味着更高的质量。现在,我们认为更小、更完善的语料库能产生更好的结果。我坚信语言数据管理(LDM)将继续发展,但我们不再认为它是决定结果的关键。
Translated:虽然目前随机访问生成(RAG)和提示工程非常流行,但我们如何引导大型语言模型(LLMs)更有效地完成特定任务可能会进一步发展。 最近,人们已经成功地将知识图谱联系起来,从而从LLMs中获取更相关、更准确的上下文结果。这一领域的专业技术可能会得到发展,因为它涉及逻辑连接的数据概念、 更好的上下文相关性和一些基本语义——所有这些元素都与我们行业中普遍存在的技能密切相关。只有提供这些服务的平台更加稳定,而不是像当今的LLMs那样快速发展时,语言数据管理(LDM)才能发展。我们已经看到,早期关于提示策略的建议现在已经过时,且相关性较低。
LILT:虽然语言数据管理(LDM)的概念很强大,但却受限于支持其自身的薄弱工具。旧系统通常仅限于接收翻译记忆(TM)形式的语言数据,而许多以机器翻译(MT)为重点的系统并不期望“自带数据”,因此大多数公司最终都默认使用TMX文件。对大型语言模型(LLMs)的新关注导致对垂直整合平台的需求变得更加必要,该平台可以将高质量内容的生成与语言数据、训练和调整任务无缝结合。随着公司开始大规模部署和运营LLMs,他们将开始理解针对内容质量、品牌一致性和用例特定性进行微调的重要性。因此,他们可能会为语言数据管理(LDM)投入更多的时间、资源和考量。
memoQ: 游戏规则改变者在于语言数据管理(LDM)可以专注于特定领域部分,而无需同时捕捉一般语言方面的内容。 此外, 也不需要对整个机器翻译(MT)系统进行重新培训。 这就减少了训练工作量并提高了可预测性。语言数据管理(LDM)可以变得更加高效,有更好的机会顺利起步。
Pangeanic:我看到了随机访问生成(RAG)的光明前景。翻译买家通常并不关心后台是如何运作的。这是留给我们开发人员讨论的问题。
我们已经在Pangeanic的生产中测试了具有域内神经机器翻译(NMT)引擎并运行基于随机访问生成(RAG)的提示工程(PE)的工作流程。我对它的未来持乐观态度,对其结果抱有期待。让矢量数据库像翻译记忆(TM)一样运行是一项挑战; 它并不是设计用来查看模糊匹配的典型数据库, 但一旦掌握了这一过程, 该系统就能大规模地产生惊人的高质量翻译。
现在,语言数据管理(LDM)系统的关键在于机器翻译(MT)提供商可以运行必要的数据管理, 包括保留编辑副本, 以便系统不断改进(拥有更多平行数据, 而不仅仅是TMX文件)。因此,除非提供LDM或翻译管理系统(TMSs)的公司进入MT或自动提示工程(PE)领域,否则纯粹的管理几乎没有附加值。
在机器翻译领域,质量评估始终是一门微妙的学科。自动质量指标主要用于衡量模型训练的效果,而人工质量评估则耗费时间,而且也不完全公正。那么,GenAI能否重新设计机器翻译(MT)质量评估呢?
Bureau Works:我认为机器翻译(MT)质量评估已经重新设计过了。语义验证比机器翻译质量评估(MTQE)的百分比得分要强大得多。它不仅可以标记潜在的错误,而且许多错误还可以在译员检查之前得到纠正。我们的整个质量范式早就应该彻底改变了,我认为我们可以把质量与内容性能联系起来,而不仅仅依赖于技术能力或者一小部分技术人员的看法。
Translated: 毫无疑问,对模型输出进行人工验证的最终需求是不会改变的。我们已经看到,下一波大型语言模型(LLM)开发浪潮将由用于监督式微调(SFT)和人类反馈强化学习(RLHF)的高质量人类注释来推动。通过允许一个模型评估另一个模型的输出,我们只能达到一定的程度。尽管如此,自动化与生成式人工智能(GenAI)在协助和加强这一过程中的作用将越来越大。
质量评估指标可对机器翻译(MT)系统的多个版本进行质量评估,系统开发人员可利用这些指标更好地了解开发策略改变的影响。常用的评估指标包括 BLEU、COMET、TER 和 ChrF。它们都使用人类参考测试集来计算每个MT系统性能的质量得分,而且开发人员都能很好地理解。
另一方面,质量评估(QE)或机器翻译质量评估(MTQE)分数是模型在不使用参考译文或不主动要求人工参与的情况下进行的质量评估。从某种意义上说,它是模型自身对机器翻译输出片段的好坏进行的自我评估。 在翻译量大或交付速度快,人工干预有限或不切实际的情况下,MTQE可以作为风险管理的重要工具。 而LLMs有可能在QE中发挥更大的作用,超越简单的质量评级,提供更丰富、更可操作的数据。
大型语言模型(LLMs)拥有庞大的参考文本数据库,可用于确定句子或文本字符串在语言学上是否正确(至少对于高资源语言而言是这样)。还可以对LLMs进行训练,使其能够识别翻译错误类型,从而有助于执行机器输出自动质量评估(QE),提高大翻译量情况下的效率。生成式人工智能(GenAI)可以在快速错误检测和纠错场景中提供有用的帮助。此外,在大型数据集中(如100万个句子中的5000个),质量最差的句子可以通过集中的人力提取和清理,以提高语料库的整体质量。
LILT: 是的,未来质量评估(QE)模型很可能会针对特定领域进行训练——就像机器翻译(MT)系统一样——而且仍将有人工参与系统训练,并对系统输出进行验证和审核。
Lionbridge:生成式人工智能(GenAI)有望彻底改变机器翻译质量评估(MTQE)。先进的提示技术将使我们不仅能够衡量准确性,还能提供更细致的评估,考虑流畅性和目标受众的共鸣等因素。然而,GenAI的真正潜力在于其自动化翻译的能力, 这种能力不仅仅是创建复制品,而是生成流畅、有针对性的内容,真正与用户产生共鸣。
传统上,语言质量评估的主要指标是准确性、与源文本的忠实度、语法规则的遵循以及一致性。这些都很重要,但它们却无法捕捉到情感影响或用户体验。现在有了生成式人工智能(GenAI),我们可以以前所未有的方式创造出有影响力的内容,并改善语言在智力和情感层面与用户的联系。因此,虽然质量的核心方面仍然至关重要,但令人兴奋的是,对话现在可以扩展到内容的影响力和情感价值方面,而不仅仅是反映源文本。在我看来,这将改变游戏规则。
memoQ:我认为,质量评估仍将具有现实意义。通过提示进行领域适应仍然需要系统的方法,但另一方面,人工智能质量评估(AIQE)将会有新的机遇,就像ModelFront或TAUS所提供的那样。要么大型语言模型(LLMs)能够很好地完成这项工作,要么基于LLM的翻译具有更高的可预测性,能够用更简单的模型识别异常值,从而使AIQE更经济实惠。 总之, 由于我们的行业永远无法提供资金,LLMs正在快速发展。未来,我们肯定还会看到更多惊喜。不过,我相信,即使这些创新将对本地化行业继续产生重大影响,它们也不会颠覆本地化行业。
Pangeanic: 是的,完全同意。BLEU分数从来都不是那么好,也不是那么准确,但至少它为系统改进提供了一种衡量标准。你可以完全欺骗BLEU,而且当人类评估者赞赏更好的流畅性时,BLEU会给出适度的改进百分比。有时,它甚至会惩罚这种流畅性!
当前评估系统的问题在于,我们都希望在翻译中使用生成式人工智能(GenAI),因为它能处理上下文(这是语言服务提供商和译员的附加值主张),但我们却以段落或编辑数量来衡量质量。在语境感知的翻译世界里,编辑可能来自于对上下文的“人性化”处理——使其真正与受众相关或更贴近受众,而这一点却被当前的系统所忽略。机器翻译质量评估(MTQE)提供了一些优势,因为系统本身可能对其输出结果很有信心,或者没有信心,这都没有问题。我们需要某种置信度评分,至少要将置信度最低的片段交给人工处理。但是,我们正在推动文档级(或至少是章节级)的翻译,这就是利用大型语言模型(LLM)所能提供的全部注意力窗口/语境(例如32k个专用辅币,或在某些系统中是这个数字的两倍)。如果我们使用32,000个专用辅币,那么大约10-12页或15页的内容将得到处理。 因此,我们肯定需要新的衡量标准,并且要摆脱段落级别的思维方式。
(机器翻译,轻度译后编辑,仅供参考)
编辑:杜曼曼