机器翻译的实现:需要考虑什么?
如何最好地实现机器翻译,需要注意哪些因素?
机器翻译(MT)技术已经存在了70年。它因其速度和成本效益而受到称赞,自从神经机器翻译(NMT)出现以来,它的质量也有了很大提高。更高的吞吐量、更快的周转时间和降低总成本的需要是几乎是所有应用MT的主要原因。听起来不错,对吧?尽管如此,要了解如何实现机器翻译来满足您的翻译需求,您应该首先考虑几个因素。
1.用例
今天,业内几乎每个人都使用机器翻译来提高生产力:从个人语言专家到中小型语言服务提供商(LSP)再到大型企业。您可以在不同的业务场景中试用MT,但这里有一些可以最大限度地发挥该技术潜力的方法:
-
当没有翻译记忆库(TM)让我们根据先前翻译的文本得到建议时,有一点参考总好于完全没有参考,因此您可以使用MT预翻译内容,并让翻译人员对其进行后期编辑以达到所需的质量。
-
当需要翻译大量人工无法处理的内容。想想以各式各样的语言呈现的用户生成内容或客户支持请求。这类内容通常不是翻译的重点,但是用客户的母语提供这些信息无疑会增加价值。您可以使用MT来填补空白,直到内容获得足够的“点击率”来优先进行翻译。
-
当翻译的主要要求是理解外语文本而不是出版时。您可能坚持要在高度可见的内容上运行MT,但是抓取文件要旨以快速了解文档的内容,也是一个很好的MT用例。
2.内容类型、目的和质量要求
并不是每种类型的内容都同样适合MT。首先列出您或您的组织处理的所有不同类型的内容,包括以前从未翻译过的内容类型。对于每种类型的内容,尝试评估以下因素:
- 效用:内容主要是为了传达指令、任务还是回应?
- 时间或速度:内容需要多快交付?
- 感情:内容是否旨在从情感上吸引读者对某个公司或产品的了解?
如果效用和时间比情感更重要,那么这些内容类型可能更适合MT。一旦你清楚你的质量要求是否基于效用、时间和/或情感,你就可以继续定义确切的质量要求。TAUS Dynamic Quality Framework (DQF)提供广泛的指导和现成的模板,涵盖各种评估方法,帮助您指定和测量质量。
3.源内容适配性
还需要评估源内容是否是MT的良好候选。一般规则是,人们难以翻译的源文本也可能产生较差的机器翻译输出。审查资料来源时需要考虑的其他要点包括:
- 源内容是否特定于某个领域?源域与用于创建翻译引擎的训练数据匹配得越多,MT输出就越好。应该避免涵盖广泛主题的源文本。
- 源文本是否包含一致的语言特征,如词汇、句法、语法和风格?源文本中较少的变化会产生更一致的机器翻译结果。
此外,必须检查:
- 没有拼写错误;
- 标点符号正确;
- 首字母大写字母应用正确;
- 而且句子也不是不必要的长。
4.语言对
机器翻译系统的性能因所涉及的源语言和目标语言而有很大差异。对于相似的语言(例如,在大多数欧洲语言之间进行翻译),用户可以期待更好的性能,而不是对于差异很大的语言(例如,英语和亚洲语言)。不同的机器翻译系统在不同的语言对和领域性能好坏不同。以系统化的方式测定和比较引擎是很重要的。
5.对机器翻译结果的评估
为了运行一个成功的MT程序(甚至只是一个测试),有一个客观的方法来评估和测量引擎的性能是必不可少的。有不同的指标可供选择,所有这些指标都分配质量分数,并且分数与人类对质量的判断相关联。主要区别在于自动评估和人工评估。在机器翻译系统的开发过程中使用自动评估指标来衡量改进或比较不同的机器翻译系统时,都依赖于人类提供的参考翻译。最著名的指标,如BLEU,NIST,METEOR,以及TER通过与参考翻译进行比较来评估MT系统的输出。虽然人工评估被认为是昂贵和耗时的,但它提供了比自动评估更丰富的见解和数据,如在MT输出中发现的错误类型的详细信息,它们的严重性等等。TAUS DQF为MT评估提供实时解决方案。
6.总拥有成本和投资回报
如果您想要准确计算您的投资回报率(ROI),您必须首先通过查看成本组成来明确实际的总拥有成本。除了软件即服务的初始支出或成本之外,还要考虑其他因素,例如:
- 培训费用;
- 调整您的工作流程;
- 额外的供应商/客户和内部沟通;
- 随着时间的推移提高机器翻译质量的潜在影响;
- 成本从翻译/编辑转移到审校的影响。
(机器翻译,轻度译后编辑,仅供参考)
编辑:胡跃