作为人工智能机器翻译越来越成为人们关注的焦点,它强调了精确度和召回率对其成功的重要性。每一个翻译都有重要意义,MT引擎的有效性在很大程度上受到所提供信息的准确性和规范性的影响。
最简单的方法之一自定义机器翻译正在使用机器翻译词汇表。了解它们是什么,为什么它们很重要,以及如何利用它们来提高MT的长期产量。
概述
什么是机器翻译词汇表?
词汇表,在机器翻译,是具有首选机器翻译的单词和短语的集合。它们有时被称为:
- 自定义术语
- 自定义词汇表
- 自定义词典等。
机器翻译词汇表类似于术语库,但不是被语言学家使用,而是被机器翻译软件使用。当附加到MT引擎时,词汇表通过确保MT引擎正确应用预先确定的术语来帮助提高MT输出的质量。在MT引擎翻译源文本之前,它会将附加的术语表文件与源文本进行比较,以识别具有首选翻译的术语并应用这些术语。值得注意的是,MT词汇表不会重新训练引擎——它只是用预先确定的翻译覆盖任何适当的术语。
为什么MT词汇表很重要?
机器翻译软件在过去的几年里,产出质量有了显著的提高。然而,它仍然缺乏人类译者对上下文的理解。这意味着它可能会犯一些非常基本的错误,尤其是在处理一个模糊的单词或在给定上下文中具有特定含义的术语时。由于词汇表适应于某个领域或公司的特定术语,它们有助于机器翻译输出比引擎仅从通用数据集中提取的输出准确得多。
MT词汇表是如何工作的?
MT引擎通常遵循的步骤是:
- 接收源文本
- 翻译原文
- 显示输出转换
由于包含了MT术语表,MT引擎在流程中增加了一个中间步骤:
- 接收源文本
- 翻译原文
- 搜索并用首选术语替换翻译
- 呈现输出翻译
换句话说,在词汇表的帮助下,MT引擎搜索匹配项,并在翻译时自动应用它们。例如,假设您有一个名为“Connected”的蓝牙扬声器品牌,您想将以下句子翻译成西班牙语:“未检测到您连接的设备。”如果没有MT词汇表,您的MT引擎将产生类似以下结果:“No se ha detectado tu dispositivo conectado”(直译为英语:“未检测到您连接的设备”)。如您所见,品牌名称“Connected”被翻译为“conectado”,这在本例中是不正确的。如果您将品牌名称“Connected”添加到MT词汇表中,您可以强制执行该术语的不可翻译性。在这种情况下,MT引擎将产生这样的结果:“No se ha detectado tu dispositivo Connected。”这是正确的——使用机器翻译词汇表可以自动提供所需的翻译,从而显著提高准确性。
使用MT词汇表的最佳实践
为了确保MT词汇表保持可靠并始终保持最新,下面是一些可遵循的最佳实践:
- 保持简单:小词汇表,只关注最基本的术语,往往更有效——大词汇表甚至会损害你的翻译输出。
- 将自定义限制为只希望以一种方式翻译的单词:MT引擎建议的翻译应该与您想要的完全匹配。
- 确保词汇表没有错误:保持你的术语没有拼写错误、格式错误或不正确的翻译。
- 避免重复术语:如果发现多个实例,MT引擎可能很难应用正确的术语。
- 编辑后基本翻译:虽然词汇表可以提高翻译质量,但不要盲目相信它们——对MT输出进行高质量的人工检查总是准确性的最佳保证。这个过程被称为“后期编辑”。
- 注意你的语言组合:在形态复杂的语言中,如芬兰语、阿拉伯语或土耳其语,单词可能会根据上下文改变形状,因此对这些语言的定制可能并不总是产生最佳结果。
- 审查文件:尽管MT引擎的基本术语表功能是相似的,但细节可能会有所不同;阅读可用的文档可能有助于了解如何最好地使用给定的引擎。
- 并非所有类型的术语都适用于词汇表:为了获得最佳效果,请关注复合名词;例子通常包括产品名称,如“Postmates”或其他特定术语,如“WeWork”。
MT词汇表适合哪些术语?
为了最大限度地提高MT词汇表的影响和准确性,将它们用于特定类型的术语非常重要:
- 产品名称如“福特蒙迪欧”、“三星Galaxy Note 5”等。
- 像“苹果”、“微软”等公司名称。
- 含糊不清的词,例如同音异义词(多义词),如“起重机”(机器对动物)或“铅”(金属对潜在客户)
- 缩写:在相关行业或领域中经常使用的单词或短语的缩写形式,例如TMS表示“翻译管理系统”
- 外来词:MT引擎可能会保留在原始语言中的外来词,如法语“cte de boeuf”菜肴,但您仍然想翻译它——在本例中是“rib eye”
哪些术语不太适合MT词汇表?
同时,一些词法类别不太适合在机器翻译词汇表中记录和使用:
- 动词:MT词汇表不能在语法人称、数、性别、时态、体、语气、语态、正式程度、组合性、及物性或化合价上正确地变化它们。
- 有许多格和语法性别的屈折语言:当一些单词在句子中的使用方式改变时,MT词汇表目前不能改变它们的形式或结尾。
在翻译管理系统中直接管理所有引擎的机器翻译词汇表
翻译管理系统允许本地化经理不仅集中和自动化本地化工作流程,还充分利用成熟的翻译技术,如翻译记忆库和词汇表。现代TMS解决方案,如Phrase,支持术语表的使用和管理,而无需上传和管理每个MT提供商的术语表。简而言之,您可以直接上传、编辑和使用所有受支持引擎的MT词汇表,这可以显著减少部署和管理时间。
术语表支持如何与短语中的每个MT引擎一起工作?
MT词汇表可作为短语语言AI,该套件的机器翻译附加组件。除了MT词汇表,短语语言AI订户可以利用许多完全管理的机器翻译和高级人工智能功能,如质量性能评分和MT自动选择。通过短语语言AI,用户还可以添加自己的MT词汇表,这些词汇表可以应用于完全托管的MT引擎:
- 谷歌翻译
- 亚马逊翻译
- DeepL
- PHRASE NextMT
- Microsoft翻译器
- Rozetta翻译
- 腾讯通
一旦创建了自定义术语表,就需要将其附加到现有的MT概要文件中。您可以创建多个MT词汇表,并将它们用于不同的翻译项目。
展望未来
机器翻译词汇表是提高机器翻译输出质量的一种简单而有效的方法。对于以下情况尤其如此:
- 翻译记忆库中低频词的域不是很大,也不是很好
- 没有足够大的数据集来使用定制MT的中小型公司
- 几年或几十年来汇编了大量术语数据的大公司——数据不一致,或者语言或风格最佳实践发生了变化或改变
然而,MT词汇表也有局限性。在某些时候,MT词汇表可能会变得如此之大,以至于会妨碍管理它的本地化经理——定期更新可能会成为一个令人头疼的问题,并且有更高的意外引入错误的风险。同样重要的是,市场上的大多数MT词汇表仍然具有搜索和替换功能。随着机器翻译技术的不断改进,引擎有望变得更好,让每个人都能使用形态正确的词汇。为了充分利用他们的机器翻译工作,本地化经理应该在决定自定义机器翻译词汇表是否适合他们的用例之前,始终优先考虑他们的需求和可用资源。
(机器翻译,轻度译后编辑,仅供参考。)
编辑:李溢泉