在2024年6月19日的一篇论文中,来自谢菲尔德大学、滑铁卢大学、曼彻斯特大学、对外经济贸易大学和科技公司01.AI引入了一个多语言数据集,用于评价隐喻语言的机器翻译质量。
这个新的数据集旨在通过关注隐喻翻译的复杂性来填补机器翻译评估中的空白,其中预期意义与字面解释不同。
隐喻表达对机器翻译系统提出了重大挑战,因为它们的含义超出了单个单词。正如研究人员所强调的那样,“隐喻翻译比直译更具挑战性。”
尽管“隐喻表达在日常生活中广泛用于交流和生动描述”,但由于资源稀缺,难以处理隐喻固有的语言形式和文化规范的变化,机器准确翻译它们的挑战在很大程度上仍未得到解决。
为了应对这一挑战,研究人员创建了MMTE(隐喻机器翻译评估)数据集,标志着“第一个手动注释的多语言隐喻翻译评估语料库”。这个高质量的语料库包括英语、汉语和意大利语的隐喻和字面表达句子,以及参考翻译。
研究人员说:“MMTE是第一个系统地研究在细粒度和多语言环境下隐喻如何影响翻译的作品。”
通过提供这个数据集,他们提供了一种方法来测试机器翻译模型在隐喻语言上的性能,而不仅仅是整体翻译质量。
评估框架
研究人员解释说,传统的机器翻译评价方法侧重于流利性和事实准确性,往往忽视了比喻语言翻译的质量,尽管“适当使用隐喻已被证明可以显著提高用户满意度”。
为此,他们提出了“第一个系统的隐喻翻译人类评价框架”。
该框架允许根据隐喻表达对机器翻译输出进行评估,从而能够更全面地分析它们在捕捉这些表达所传达的细微含义方面的有效性。
根据研究人员的说法,评估应该集中在四个关键领域:
- 隐喻对等——评价源语的比喻意义在译入语中的保留程度。
- 情感——评估译文如何有效地传达原隐喻表达所要表达的情感。
- 真实性——衡量译文中隐喻表达的自然性和恰当性。
- 整体质量——考虑译文对原文的流畅性、连贯性和忠实度,对译文的有效性进行全面评估。
该框架也适用于隐喻翻译的自动度量设计。然而,到目前为止,研究人员只提供了设计这些自动度量的想法,而不是提供现成的使用。他们计划在未来的工作中进一步开发这些自动度量标准。
(机器翻译,轻度译后编辑,仅供参考。)
编辑:陈驭格