ChatGPT | 分析ChatGPT采用MQM标准评估的不足之处
2024年08月08日 00:05
在“机器翻译质量横向对比”期末项目中,我与小组其他成员使用GPT-4-Turbo,采用MQM等两种翻译质量评估指标并调用三个机器翻译,开发了一个自动化的机器翻译评估工具。在开发过程以及评估结果中,ChatGPT给我们带来了不少问题,一起来看看吧!
项目中ChatGPT依据MQM,查找译文的错误,并评估错误的严重程度,那么什么是MQM呢?
翻译多维质量标准Multidimensional Quality Metrics (MQM)是一种翻译质量评估框架,可以对人工翻译和机器翻译进行翻译质量评测。
MQM将翻译错误主要划分为7个维度,分别为:
-
术语(Terminology)
-
准确性(Accuracy)
-
流利度(Fluency)
-
风格(Style)
-
区域惯例(Locale conventions)
-
真实性(Verity)
-
格式与标记(Design and markup)
每个维度又包含有更详细的类型,如下图所示:
图1 MQM错误类型
不仅有错误类型,MQM还对错误的严重程度进行规定,分为无错误(None)、轻微错误(Minor)、主要错误(Major)、严重错误(Critical)四个档位。
GPT根据该标准所划分的错误类型和错误程度,来评价一篇译文,也就成为了我们的机翻评估工具的评估标准之一。
该工具使用ChatGPT、利用MQM标准来对译文进行评分。代码的逻辑为调用API—预设提示词(Prompt)、控制输出格式—对ChatGPT输出内容进行整理归类,最终要求ChatGPT输出的格式为:
Source text: …
Target text: …
MQM annotations:
Critical:
Accuracy/addition – “for example”
accuracy/omission – “the stop-start”
terminology/inappropriate for context – “partaje”(仅为举例说明)
Major:
…
Minor:
…
最终输出为表格记录机器翻译的错误内容、错误类型和程度。
-
第三方接口流量限制
采用第三方接口调用API,GPT-4o流量容易达到上限而报错“当前分组上游负载已饱和”,错误代码为429,表示用户的请求超过了OpenAI API设定的速率限制。改用GPT-4-Turbo可解决,生成质量相对低。
图2 报错“当前分组上游负载已饱和”
-
找到的错误数量少
ChatGPT返回的结果中,每2000词的英语文本有平均20个错误。经过二次核查,发现ChatGPT漏掉了很多错误,并且如果一句话中出现多次错误,它通常只会指出一个类型的错误。比如下表中,GPT仅指出机器翻译漏译了Keeping(错误2,类型为accuracy/omission),而错误1(style/inappropriate for context)和3(fluency/word choice)均没有被指出。
表1 一句话内的多个错误
-
输出不稳定
ChatGPT存在偶尔不稳定的情况。除了漏译需要输出原文,ChatGPT指出翻译错误应输出为目标语言,但在12次返回结果中,出现了1次输出全为源语言的情况。
表2 输出不稳定
-
错误类型单一
由于流量以及字数限制,输入的源文本内容控制在500词,分批次输入。
在返回的内容中,通常有1-3种错误类型,有时返回的3、4条内容均属于同一种错误类型,而更加明显的错误却没有被指出。比如在其中一段文本(500词)中,ChatGPT指出了3条类型为style/register的错误,但却没有指出其他明显的错误(比如Their first stages return from the upper atmosphere, landing gracefully on their tails.的译文“其第一级火箭从高层大气返回,优雅地用尾巴着陆。”);或者3份机翻文本中呈现的相同错误,ChatGPT没有每次都指出。
有时一些内容存在分类错误,有理由怀疑是ChatGPT在“偷懒”。比如在另一段文本(500词)中,ChatGPT共指出了4条style/awkward错误和2条accuracy/omission的错误,经查证其中一条style/awkward错误类型实际应为accuracy/mistranslation。
-
误判
ChatGPT误判的情况分为两种,第一种是认为正确的译文存在错误,这种情况较少,2000词的英文文本平均存在2例,如下表:
表3 误判译文错误
更常见的是第二种:误判错误类型,2000词的英语文本存在4-5例。示例如下表:
表4 误判错误类型
AI工具的意义在于简化工作流程,提高效率,但当我们核查ChatGPT的输出结果时,所耗费的时间并不少于纯人工检查机器翻译文本,甚至有可能更多。AI未来的发展、人们如何高效运用AI,都还有很长的路要走。
-
MQM部分:
https://www.bilibili.com/read/cv20434363/
-
源文本来源:经济学人
-
参考译文来源1:
-
参考译文来源2:
https://mp.weixin.qq.com/s/fd77_fc6dikPhk5yP_RAxw
特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。
翻译技术教育与研究ChatGPT专题组致力于探索发掘ChatGPT为代表的AI工具在语言服务不同阶段的应用,进而提高工作效率。专题组目前的主要方向有:探索提示词(prompt)及流程变更如何提升交互效果;了解及推介Github等平台上的AI应用,AI应用嵌入语言服务流程及其优化方式。小组通过定期会议及讨论确定选题方向并通过文章、视频等形式分享探索结果,欢迎通过文章留言为大家提供建议意见!