如今全世界的企业现在依赖于机器翻译(MT)比以往任何时候都要多。2022年MT市场规模超过9.82亿美元预计到2032年,复合年增长率将达到23%。这在很大程度上是因为机器翻译变得更加可靠,全球品牌更快地以多种语言交付定制内容的压力不断增长——同时控制成本。机器翻译越来越多地提供快速且经济高效的翻译,但保持翻译质量仍然是一个紧迫的问题。为了在当今快节奏的全球市场中取得成功,公司必须大规模本地化与其领域一致的内容,捕捉正确的基调,并在各种语言和分销渠道中保持品牌声音的一致性。这就是机器翻译定制发挥作用的地方。通过调整和训练MT引擎以提供更好的输出,MT定制为旨在与国际受众建立联系、推动参与和提高跨市场转化率的公司提供了战略优势。继续阅读,了解如何让MT定制为您的企业服务。
概述
什么是MT定制?
想象一下:在一个繁华城市的中心,一个熟练的裁缝通过制作体现精确和艺术的西装而出名。正如他根据穿着者的独特需求量身定制每套西装一样,MT customization改进了翻译引擎,以获得特定行业的准确性。这种工艺和技术的融合确保了翻译与上下文无缝契合,就像定制西装传达风格和自信一样。这两项努力都体现了对细节的关注是如何将普通元素转化为非凡成果的。机器翻译定制是创建、部署和维护机器翻译引擎的过程,该引擎使用数据在特定的语言对和领域中生成高质量的翻译。也称为定制MT,它确保最终输出与特定领域或行业的独特要求无缝一致。
机器翻译定制的演进
为了真正体会MT定制的强大功能,让我们倒回去一点。不久前,构建个性化MT引擎的想法似乎相当遥远。这是一项资源密集型工作,需要大量的技术专长。这就是为什么选择是有限的:一个人可以进行重大投资,拥有技术诀窍,或者依赖昂贵的外部合作伙伴。然而,就像所有技术一样,MT定制也在发展。早在2017年,几家MT提供商就开始探索让定制变得更容易的方法。其目的是让语言爱好者和开发人员能够在不倾家荡产的情况下设计量身定制的机器翻译解决方案。2018年,谷歌推出了AutoML,这是一款开创性的工具,旨在使MT定制流程民主化。谷歌首席执行官桑德尔·皮查伊说抓住了它的本质:
我们希望AutoML将利用今天少数博士拥有的能力,并在三到五年内使成千上万的开发人员能够为他们的特殊需求设计新的神经网络。
如今情况大不相同。除了提供不同程度定制的通用引擎之外,您还可以访问各种可定制的MT引擎。对于那些寻求精确和卓越翻译的人来说,曾经成本高昂的努力现在已经变成了一种可获得的资源。
MT定制的价值
定制机器翻译不仅带来了通用机器翻译引擎的强大功能,还走得更远。在时间至关重要的翻译竞赛中,custom MT保持同步,快速处理大量文本。它可以帮助您避免耗时复杂的人工翻译,并作为一种经济高效的解决方案向前发展,释放出您可以投资于提高质量的资源。质量正是定制机器翻译区别于通用机器翻译引擎的地方。翻译的质量取决于所使用的机器翻译模型的质量。把定制机器翻译中训练有素的模型想象成语言专家。他们对语言细微差别的敏锐理解确保了高质量的翻译。这种磨练的技能意味着翻译过程中的颠簸更少,几乎没有机器翻译后期编辑。凭借更高的效率和前所未有的质量和准确性,全球企业可以快速推出多语言内容,并战略性地分配资源,以改善整体客户体验。这反过来又提高了品牌认知度、客户参与度和市场转化率,推动了业务在国际舞台上的持续增长。
谁能从MT定制中受益?
随着MT定制变得越来越容易获得,它现在是一种更广泛的用户可以利用的资源。一方面,任何拥有足够数量适合培训的翻译数据的组织都可以利用这种转变。MT定制的最新进展大大减少了所需的数据量。一个足够大的翻译记忆库(TM)是你开始增强语言能力所需要的。另一方面,在特定领域内浏览大量内容的组织将获得巨大收益。
特定行业如何从机器翻译定制中受益 | |
电子商务及网上零售 | 在电子商务和在线零售领域,定制MT引擎可以翻译产品描述和用户评论,从而增强整体购物体验。 |
旅游与酒店业 | 在旅游和酒店行业,酒店列表和用户评论可以以个人风格呈现。 |
SaaS(软件即服务) | 软件公司可以从用户文档、帮助内容和手册中受益,这些文档、帮助内容和手册是根据他们特定的行业术语和术语定制的。 |
汽车制造 | 汽车制造商可以从各种材料的MT定制中受益,包括客户意见、经销商反馈、手册和生产协议——预计商业价值将达到数百万美元,根据宝马示例。 |
金融与金融科技 | 在金融和金融科技行业,MT定制被证明对于准确翻译行业特定词汇、整合风险相关术语以及与每个客户对合规性文档、法规和财务报告的偏好保持一致非常有价值。 |
制药 | 制药行业可以将处方、专利、临床试验、测试结果和营销材料中包含的医学术语的翻译挑战转化为优势,确保定制系统的最大准确性和流畅性。 |
MT定制有哪些类型?
MT定制有两种主要形式:轻型和全轻型。您在轻度和全MT定制之间的选择取决于您的翻译项目的性质和所需的准确性水平。这类似于为旅行选择服装:轻便的服装适合家庭周末,而全套服装则是商务旅行的理想选择。从一般内容转移到特定于行业的内容越多,需要的定制就越多。
轻型MT定制
轻型MT定制需要调整特定于引擎的特性来微调翻译。可以把它想象成调整收音机的刻度盘以获得最佳音质。其中包括:
- 词汇改编
- “禁止翻译”列表
- 翻译记忆适应
- 文体控制
例如,DeepL的形式特征展示轻定制。
全MT定制
完全MT定制将这一过程向前推进了一步。它包括使用精心策划的数据集训练机器翻译引擎,以生成精确捕捉行话、术语、风格和语调的翻译。从本质上讲,完全的机器翻译定制会产生一个能说您的语言的翻译引擎——无论是象征性的还是字面上的。
如何为MT定制准备您的数据?
不久前,组织需要为数百万个细分市场提供数据来训练MT引擎。然而,那些日子已经一去不复返了——这个过程现在需要的环节要少得多。训练机器翻译引擎的关键是双语数据。从长远来看,高质量双语数据的数量和种类越多,引擎在生成高质量翻译方面的装备就越好。
用于MT定制的关键数据类型
支撑机器翻译定制的数据有两大支柱:翻译记忆库和语料库。
翻译记忆库
翻译记忆库(TMs)是语言进化的基石。翻译和本地化行业中的大多数组织都可以使用和熟悉这些工具。就在几年前,TMs主要被认为是人工修改翻译的宝库。然而,它们现在在塑造MT引擎的轨迹方面是无价的,指导它们以非凡的准确性复制内容。
语料库
语料库是多种语言文本的大型结构化集合。这些文本是从外部来源获得的精心策划的数据集,并被选择作为MT模型的训练数据。通过补充TM数据,语料库非常有效地工作,提高了效率和精确度——特别是在特定的语言对和专业领域。拥抱语料库丰富了本地化之旅,培养了一种全面的方法,利用内部和外部语言资源的内在优势。
机器翻译数据清理的最佳实践
TMs和语料库是机器翻译定制的基础数据块。为了给你的定制引擎提供一个坚实的基础,首先准备精心策划的训练数据是很重要的。为此,数据清理至关重要。各种技术可以帮助您改进和提高数据质量,优化引擎的性能:
- 按年龄筛选段
- 对齐源段和目标段
- 分段长度
- 删除不可翻译的
- 删除重复项
- 语言检查
- 内联标记
以前,数据清理依赖于大量(且昂贵)的人工审查,但现在很大一部分数据准备工作可以自动化。这些策略都协同工作,以完善和清理数据,最终提高培训过程的有效性。让我们来看看每一个。
按年龄筛选段
对于某些类型的文档,基于TM段的年龄对其进行过滤是为MT清理数据的基本技术,因为引擎训练的效率受到段年龄对内容的适应性的影响。黄金法则是在及时性和相关性之间保持适当的平衡,以确保准确的培训。使用太过时或太过时的片段可能会适得其反,尤其是在处理质量、来源、属性和历史用法不受控制的继承或遗留翻译记忆库时。
对齐源段和目标段
及时性与准确性密切相关——这就是源和目标细分市场的一致性发挥作用的地方。必须仔细验证用于训练的段对是否准确传达了相同的含义。这种校准可以防止任何可能对MT引擎的性能产生负面影响的差异或不一致。
检查段长度
段长度在数据细化中也至关重要。过长或异常短的成对片段会影响MT的质量。出于纯粹的技术原因,这样做也是必要的,因为一些可定制的MT引擎经常施加段长度限制。要解决这个问题,您可以应用一些技术,如实现最小字符数、建立句子对长度的指导原则以及保持平衡的长度比。
删除不可翻译的
接下来是删除不可翻译的元素。有些单词或短语可能缺乏语言之间的直接翻译,有些根本不需要翻译,例如姓名和地址。建议将它们从数据中删除,以防止翻译过程中的混乱和不准确。
删除重复项
防止数据冗余同样重要。消除重复或几乎相同的段对有助于保持数据完整性,防止对MT输出产生不当影响。
语言检查
语言检查也很重要。有时,用于自定义的翻译记忆库可能包含具有错误语言对的段对。确保所有部分与所需的语言保持一致对于保持一致和准确的定制至关重要。
内联标记
翻译记忆库中内联标签的存在需要注意。这些标记通常表示变量或特殊格式,在不同的MT引擎中可能不会得到一致的支持。这就是为什么,在某些情况下,从训练数据中排除它们是值得的,以防止翻译结果中潜在的不一致。
浅谈定制MT模型的训练
MT定制的领域是错综复杂的,揭示了训练定制MT模型的动态景观。以下是最受欢迎的支持定制的MT模型的概述:
- Amazon主动自定义翻译提供由用户输入驱动的敏捷平台,展示人机协作。
- Globalese自定义NMT将神经网络与高级后期编辑相结合,确保一丝不苟的改编。
- 谷歌自动翻译通过迭代学习细化模型。
- IBM自定义NMT成为人工智能驱动的精确度的典范,而微软Custom Translator的自适应学习捕捉上下文的复杂性。
- RWS语言编织器关注领域特异性,确保强大的理解。
- SDL PNMT和Systran PNMT为复杂的语言对提出尖端的神经模型。
- Tilde作为一个融合了语言专业知识的经验丰富的玩家。
- Yandex翻译自定义促进微调翻译。
- Phrase NextMT是第一个神经机器翻译删除
训练定制MT模型需要什么
训练自定义机器翻译模型通常由多个步骤、角色和时间范围组成。在Microsoft Custom Translator、Google Translate AutoML和Amazon的Active Custom Translation的案例中,具有技术专长的个人发挥着至关重要的作用,并投入了大约:
- 10分钟以上的帐户创建时间
- 初始设置需要30多分钟
- 30小时以上的并行数据准备
- 30分钟以上的计费时间
- 6小时以上的培训
制图MT模型评估与微调
机器翻译的旅程不会停留在训练一个模型上——这只是一个开始。机器翻译模型的成功取决于仔细的评估和微调过程。您可以通过使用自动化指标、编辑后指标以及人工评估来评估机器翻译模型的质量。
机器翻译评价方法 | |
自动化度量 | BLEU、COMET、TER、chrf3和METEOR为翻译保真度提供了可量化的见解。 |
人工评估 | 包括标准化的问卷来捕捉只有人类才能理解的细微差别。 |
编辑后度量 | TER、编辑时间、编辑距离、思考时间等提供了翻译准确性和效率的具体衡量标准。 |
您的目的地就在前方:MT定制
MT定制之旅不会在一次评估后停止,而是通过持续的定期评估继续进行。这种持续的探索使MT引擎能够无缝地适应不断变化的语言环境。类似于探险者在开始新的旅程之前更新地图的方式,定制MT引擎使用更新的数据进行定期再训练。这一过程磨练了他们的能力,提高了他们的绩效,从而产生了体现实际卓越的翻译——根据公司的背景和语言定制——这意味着巨大的投资回报。
原文链接(机器翻译,轻度译后编辑,仅供参考。);编辑:李溢泉