在一篇于2024年3月13日发表的论文中,电信研究所和Unbabel的研究人员合作探讨了评估机器翻译聊天的挑战,并引入了CONTEXT-MQM,一种全新的基于大语言模型的衡量方式,利用上下文信息来改进评估过程。MQM代表多维质量度量。
研究人员解释说,自动度量已经成功地评估了翻译质量,但是没有广泛地用于评估机器翻译的聊天。聊天对话不同于结构化的新闻文章,因为它们是非结构化的、简短的、非正式的和依赖于上下文的,这使得现有的指标很难准确地评估它们。为了调查自动评估指标如何捕捉会话数据的翻译质量,研究人员对现有的自动指标进行了元评估。具体来说,他们利用了来自WMT2022聊天共享任务中的MQM标注,其中包括由自动机器翻译(MT)系统翻译的真实双语客户支持对话。Unbabel的人类专家接受过使用MQM框架评估客户支持内容的专门培训,他们对翻译进行了评估。评估由Unbabel的专家语言学家和翻译团队进行,他们在评估过程中考虑了完整的会话背景。
改进的余地
他们发现,基于参考的指标,如COMET-22和METRICX-23-XL,优于无参考的指标,如METRICX-23-QE-XL和COMET-20-QE,特别是对于英语以外的语言的翻译,这表明“对于英语以外其他语言的翻译无参考评价,仍有改进的空间。”通过整合上下文信息,与人类判断的相关性得到了改善,特别是对于非英语翻译中的无参考COMET-20-QE。然而,添加上下文对评估英语翻译有负面影响。研究人员探索了两种类型的语境信息来评估翻译质量:参与者内部和参与者之间。在典型的聊天对话中,通常有两个参与者:客户和代理。在文本由客户生成的情况下,可以在文本之前加上来自同一参与者(即客户)先前交互的上下文(内部),或者考虑来自两个参与者(即客户和代理)的上下文(内外部)。
双语语境改善评价
他们还调查了大型语言模型(LLMs)在评估聊天翻译质量中的作用,并引入了CONTEXT-MQM,这是一种基于LLM的衡量方式,利用上下文来增强评估。初步实验显示,在提高机器翻译聊天的质量评估方面取得了有希望的结果。他们说:“我们对CONTEXT-MQM的初步实验表明,在评估提示中加入双语语境确实有助于提高机器翻译聊天的质量评估。”研究人员强调了大语言模型在带有上下文信息的聊天翻译质量评价中的应用潜力。此外,他们认为,探索替代方案,促进各种语言对和大语言模型以包括上下文,是未来研究的必要条件。
机器翻译,轻度译后编辑,仅供参考。
编辑:陈驭格