了解质量估值和质量评估之间的区别、TAUS QE(质量估值) 分数的基础,以及如何分类和定制分数以实现最佳应用。
质量估值 (QE) 的目标是在没有参考译文的情况下测量(机器)翻译的质量。在本博客中,我们将解释 QE 分数是如何产生的,以及如何解读它。
质量评估和质量估值有什么区别?虽然这两个词相当相似,而且经常交替使用,但实际上它们指的是两个根本不同的过程,尤其是在机器翻译的语境中:
-
评估是一个翻译后过程,意味着将 机器翻译(MT) 输出与人类参考翻译进行比较。这通常是一个定期过程,目的是评估 MT 在一段时间内的性能。最常见的 MT 评估指标有 BLEU、chrF、COMET 和 TER。
-
而估值则是在翻译时进行的。它旨在预测 MT 输出的质量,无需人工干预,并简化内容工作流程,例如,指示源内容是否适合 MT,或识别何时可以安全地使用粗略机器翻译,而无需任何译后编辑。
质量估值(QE) 分数基于什么?TAUS QE 分数主要基于语义相似性。为了计算这个分数,我们使用了代表每个句段含义的句子嵌入向量,以计算源片段和目标片段的相似程度。为了达到最高的准确性和语言覆盖率,TAUS 使用了多个语言模型的嵌入。
训练有素的模型可为每个句段提供 QE 分数。分数范围从 0 到 1,可作如下解释:
-
0.95 – 1.00: 最佳
-
0.90 – 0.95:好
-
0.85 – 0.90: 可以接受
-
0.85: 坏
QE 分数是否与翻译记忆库 (TM) 匹配结果相似?虽然 QE 分数的概念与 TM 匹配分数有些相似,特别是在应用方面,但这些分数的基本逻辑和解释却大相径庭:
- 翻译记忆库检索以前翻译过的文本字符串,并指出它们与新文本中的字符串的相似性:它衡量两个源句之间的文本相似性。如果已知 TM 的质量良好,则无需进一步编辑即可重复使用完整的匹配信息。
- 相比之下,QE 分数衡量的是源文本字符串与目标文本字符串之间的相似度,不需要先前翻译过的参考译文。
QE 分数的可靠性如何?正如 “估值 “一词所示,QE 分数只是一个近似值。这意味着质量估值模型所提供分数的参考和利用价值取决于其使用环境。对于通用模型,在有大量多语言训练数据的情况下,模型会尝试学习各种语言句子的内在数学表示。然后,它试图根据两个句子之间的相似性给出一个分数,表示它们在意义上的等同性。在译后编辑工作流程中应用时,人工审稿人需要了解分数范围与人工判断的相关性。这一范围随后可作为解释的指南,例如 85% 应被视为良好还是 90%。模型定制提供了根据具体要求和情况对这一分数进行定制的灵活性,从而使适应性更强,范围更确定。请阅读 MotionPoint 如何为特定客户减少译后编辑工作量。
QE 分数分类有哪些选择?TAUS 可根据特定领域和语言对创建定制模型。训练数据应该是有标注的,但标注的类型和值可能因使用情况而异。标注可以是离散的,如 “差”、”低于平均水平”、”一般”、”好”、”优秀 “或 1、2、3、4,也可以是连续的。虽然可以训练一个模型,使其适用于多个语言对或主题/领域,但我们发现,通过训练既针对主题/领域又针对语言对的自定义模型(例如,针对健康领域的法语-德语模型),可以获得最佳效果。
(机器翻译,轻度译后编辑,仅供参考)