ChatGPT | 分析ChatGPT采用MQM标准评估的不足之处
翻译技术教育与研究 2024年08月08日 00:05 陕西
在“机器翻译质量横向对比”期末项目中,我与小组其他成员使用GPT-4-Turbo,采用MQM等两种翻译质量评估指标并调用三个机器翻译,开发了一个自动化的机器翻译评估工具。在开发过程以及评估结果中,ChatGPT给我们带来了不少问题,一起来看看吧!
项目中ChatGPT依据MQM,查找译文的错误,并评估错误的严重程度,那么什么是MQM呢?
翻译多维质量标准Multidimensional Quality Metrics (MQM)是一种翻译质量评估框架,可以对人工翻译和机器翻译进行翻译质量评测。
MQM将翻译错误主要划分为7个维度,分别为:
- 
术语(Terminology) 
- 
准确性(Accuracy) 
- 
流利度(Fluency) 
- 
风格(Style) 
- 
区域惯例(Locale conventions) 
- 
真实性(Verity) 
- 
格式与标记(Design and markup) 
每个维度又包含有更详细的类型,如下图所示:

图1 MQM错误类型
不仅有错误类型,MQM还对错误的严重程度进行规定,分为无错误(None)、轻微错误(Minor)、主要错误(Major)、严重错误(Critical)四个档位。
GPT根据该标准所划分的错误类型和错误程度,来评价一篇译文,也就成为了我们的机翻评估工具的评估标准之一。
该工具使用ChatGPT、利用MQM标准来对译文进行评分。代码的逻辑为调用API—预设提示词(Prompt)、控制输出格式—对ChatGPT输出内容进行整理归类,最终要求ChatGPT输出的格式为:
Source text: …
Target text: …
MQM annotations:
Critical:
Accuracy/addition – “for example”
accuracy/omission – “the stop-start”
terminology/inappropriate for context – “partaje”(仅为举例说明)
Major:
…
Minor:
…
最终输出为表格记录机器翻译的错误内容、错误类型和程度。
- 
第三方接口流量限制 
采用第三方接口调用API,GPT-4o流量容易达到上限而报错“当前分组上游负载已饱和”,错误代码为429,表示用户的请求超过了OpenAI API设定的速率限制。改用GPT-4-Turbo可解决,生成质量相对低。
 图2 报错“当前分组上游负载已饱和”
图2 报错“当前分组上游负载已饱和”
- 
找到的错误数量少 
ChatGPT返回的结果中,每2000词的英语文本有平均20个错误。经过二次核查,发现ChatGPT漏掉了很多错误,并且如果一句话中出现多次错误,它通常只会指出一个类型的错误。比如下表中,GPT仅指出机器翻译漏译了Keeping(错误2,类型为accuracy/omission),而错误1(style/inappropriate for context)和3(fluency/word choice)均没有被指出。
 表1 一句话内的多个错误
表1 一句话内的多个错误
- 
输出不稳定 
ChatGPT存在偶尔不稳定的情况。除了漏译需要输出原文,ChatGPT指出翻译错误应输出为目标语言,但在12次返回结果中,出现了1次输出全为源语言的情况。
 表2 输出不稳定
表2 输出不稳定
- 
错误类型单一 
由于流量以及字数限制,输入的源文本内容控制在500词,分批次输入。
在返回的内容中,通常有1-3种错误类型,有时返回的3、4条内容均属于同一种错误类型,而更加明显的错误却没有被指出。比如在其中一段文本(500词)中,ChatGPT指出了3条类型为style/register的错误,但却没有指出其他明显的错误(比如Their first stages return from the upper atmosphere, landing gracefully on their tails.的译文“其第一级火箭从高层大气返回,优雅地用尾巴着陆。”);或者3份机翻文本中呈现的相同错误,ChatGPT没有每次都指出。
有时一些内容存在分类错误,有理由怀疑是ChatGPT在“偷懒”。比如在另一段文本(500词)中,ChatGPT共指出了4条style/awkward错误和2条accuracy/omission的错误,经查证其中一条style/awkward错误类型实际应为accuracy/mistranslation。
- 
误判 
ChatGPT误判的情况分为两种,第一种是认为正确的译文存在错误,这种情况较少,2000词的英文文本平均存在2例,如下表:
 表3 误判译文错误
表3 误判译文错误
更常见的是第二种:误判错误类型,2000词的英语文本存在4-5例。示例如下表:
 表4 误判错误类型
表4 误判错误类型
AI工具的意义在于简化工作流程,提高效率,但当我们核查ChatGPT的输出结果时,所耗费的时间并不少于纯人工检查机器翻译文本,甚至有可能更多。AI未来的发展、人们如何高效运用AI,都还有很长的路要走。
- 
MQM部分: https://www.bilibili.com/read/cv20434363/ 
- 
源文本来源:经济学人 
- 
参考译文来源1: 
- 
参考译文来源2: https://mp.weixin.qq.com/s/fd77_fc6dikPhk5yP_RAxw 
特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。 
翻译技术教育与研究ChatGPT专题组致力于探索发掘ChatGPT为代表的AI工具在语言服务不同阶段的应用,进而提高工作效率。专题组目前的主要方向有:探索提示词(prompt)及流程变更如何提升交互效果;了解及推介Github等平台上的AI应用,AI应用嵌入语言服务流程及其优化方式。小组通过定期会议及讨论确定选题方向并通过文章、视频等形式分享探索结果,欢迎通过文章留言为大家提供建议意见!

