在2024年2月20日的论文中,墨尔本大学的郑伟·林、叶卡捷琳娜·维洛莫娃、特雷弗·科恩和查尔斯·坎普强调了翻译准确性和流畅性的重要性。他们认为分开处理这两个方面可以改善当前的机器翻译(MT)评估指标,优化机器翻译的训练和表现。
翻译的准确性是指翻译对源文本的忠实性,确保源文本中的所有信息都保留在目标文本中。流畅性指的是翻译文本符合目标语言的规范和自然性的程度,使读者易于理解和吸收。
作者提到,翻译中这两个维度之间的关系长期以来一直存在争议。虽然有些人认为准确性和流畅性之间存在权衡关系——这意味着一个方面的改善可能会以牺牲另一个方面为代价——但另一些人则认为这两者之间存在高度相关性(即两者并行不悖),难以明确区别。
准确性和流畅性之间经常有一个权衡。非常准确的翻译可能不那么流利;高度流畅的翻译可能会牺牲一些准确性。作者指出,译者在选择不同翻译方案时,常常需要权衡准确性与流畅性的冲突,因为要同时兼顾这两者是具有挑战性的。
在这篇论文中,作者通过引入辛普森悖论这一概念到翻译领域,阐明了准确性与流畅性之间的关系。辛普森悖论指的是整体数据趋势与其内部小分组趋势不一致的现象,此应用揭示了在不同分析层面上,准确性与流畅性是如何相互影响的。
具体来说,他们证明了尽管准确性与流畅性在整个语料库层面上可能呈现出正向相关性,但在检查单个翻译片段时,却存在权衡关系,因此,他们建议在段落层面对准确性与流畅性之间的联系进行评价最为恰当。“在这两种分析层面中,段落层面是用来理解人类和机器翻译系统该如何从源段落的多个可能翻译中做出选择的恰当层次,”他们表示。
中间地带
作者认为,这种权衡对于评估翻译质量和开发机器翻译系统具有重要意义。理解和管理这种权衡对于评估翻译质量、有效训练模型和优化机器翻译系统性能至关重要。
作者认为,目前的翻译质量评估方法可能需要调整。他们指出,在最近的WMT常规机器翻译任务中,人类评估采用直接评估与标量质量度量(DA+SQM)相结合的方式进行,该方法将意义保持(即准确性)和语法(即流畅性)融合为一个单一分数,但这种方式可能未能充分捕捉到准确性和流畅性的微妙差异。另一方面,多维质量度量(MQM)提供更详细的分数,但更耗费资源。
作者提出了一个“中间地带”的概念,该概念对DA+SQM方法进行了扩展,以将准确性和流畅性作为独立的评估维度进行考虑,这与WMT16所采用的方法论相似。
通过这种方式,像BLEURT和COMET这样的自动机器翻译评估指标,能够基于DA分数进行微调,分别针对准确性和流畅性提供独立评分,从而对翻译进行更为细致的评价。
此外,他们强调了开发MT模型的重要性,该模型能够以模拟人类决策的方式有效地平衡准确性和流畅性之间的权衡。他们强调,在某些情况下,如翻译法律文本,准确性至关重要,而在非正式对话中,流利可能更为重要。通过在准确性和流畅性之间取得适当的平衡,这些模型可以提高各种背景下的翻译质量。
机器翻译,轻度译后编辑,仅供参考。
编辑:严覃瑶