ChatGPT | 分析ChatGPT采用MQM标准评估的不足之处

ChatGPT | 分析ChatGPT采用MQM标准评估的不足之处
翻译技术教育与研究 2024年08月08日 00:05 陕西

其他推荐

从翻译视角看跨文化词汇的流转 | Typhoon 一词的由来

2025年8月4日

“AI赋能翻译教育”系列专访 | 对话黑龙江大学孙超院长：探秘DTI建设与课程创新

2025年8月4日

Loc World专栏 | 利用人工智能提升本地化质量与效率（文末PDF领取）

2025年8月4日

ChatGPT | 分析ChatGPT采用MQM标准评估的不足之处

翻译技术教育与研究 2024年08月08日 00:05

前言

在“机器翻译质量横向对比”期末项目中，我与小组其他成员使用GPT-4-Turbo，采用MQM等两种翻译质量评估指标并调用三个机器翻译，开发了一个自动化的机器翻译评估工具。在开发过程以及评估结果中，ChatGPT给我们带来了不少问题，一起来看看吧！

什么是MQM？

项目中ChatGPT依据MQM，查找译文的错误，并评估错误的严重程度，那么什么是MQM呢？

翻译多维质量标准Multidimensional Quality Metrics (MQM)是一种翻译质量评估框架，可以对人工翻译和机器翻译进行翻译质量评测。

MQM将翻译错误主要划分为7个维度，分别为：

术语（Terminology）
准确性（Accuracy）
流利度（Fluency）
风格（Style）
区域惯例（Locale conventions）
真实性（Verity）
格式与标记（Design and markup）

每个维度又包含有更详细的类型，如下图所示：

图1 MQM错误类型

不仅有错误类型，MQM还对错误的严重程度进行规定，分为无错误（None）、轻微错误（Minor）、主要错误（Major）、严重错误（Critical）四个档位。

GPT根据该标准所划分的错误类型和错误程度，来评价一篇译文，也就成为了我们的机翻评估工具的评估标准之一。

部分代码逻辑

该工具使用ChatGPT、利用MQM标准来对译文进行评分。代码的逻辑为调用API—预设提示词（Prompt）、控制输出格式—对ChatGPT输出内容进行整理归类，最终要求ChatGPT输出的格式为：

Source text: …

Target text: …

MQM annotations:

Critical:

Accuracy/addition – “for example”

accuracy/omission – “the stop-start”

terminology/inappropriate for context – “partaje”（仅为举例说明）

Major:

…

Minor:

…

最终输出为表格记录机器翻译的错误内容、错误类型和程度。

所存在的问题

第三方接口流量限制

采用第三方接口调用API，GPT-4o流量容易达到上限而报错“当前分组上游负载已饱和”，错误代码为429，表示用户的请求超过了OpenAI API设定的速率限制。改用GPT-4-Turbo可解决，生成质量相对低。

图2 报错“当前分组上游负载已饱和”

找到的错误数量少

ChatGPT返回的结果中，每2000词的英语文本有平均20个错误。经过二次核查，发现ChatGPT漏掉了很多错误，并且如果一句话中出现多次错误，它通常只会指出一个类型的错误。比如下表中，GPT仅指出机器翻译漏译了Keeping（错误2，类型为accuracy/omission），而错误1（style/inappropriate for context）和3（fluency/word choice）均没有被指出。

表1 一句话内的多个错误

输出不稳定

ChatGPT存在偶尔不稳定的情况。除了漏译需要输出原文，ChatGPT指出翻译错误应输出为目标语言，但在12次返回结果中，出现了1次输出全为源语言的情况。

表2 输出不稳定

错误类型单一

由于流量以及字数限制，输入的源文本内容控制在500词，分批次输入。

在返回的内容中，通常有1-3种错误类型，有时返回的3、4条内容均属于同一种错误类型，而更加明显的错误却没有被指出。比如在其中一段文本（500词）中，ChatGPT指出了3条类型为style/register的错误，但却没有指出其他明显的错误（比如Their first stages return from the upper atmosphere, landing gracefully on their tails.的译文“其第一级火箭从高层大气返回，优雅地用尾巴着陆。”）；或者3份机翻文本中呈现的相同错误，ChatGPT没有每次都指出。

有时一些内容存在分类错误，有理由怀疑是ChatGPT在“偷懒”。比如在另一段文本（500词）中，ChatGPT共指出了4条style/awkward错误和2条accuracy/omission的错误，经查证其中一条style/awkward错误类型实际应为accuracy/mistranslation。

误判

ChatGPT误判的情况分为两种，第一种是认为正确的译文存在错误，这种情况较少，2000词的英文文本平均存在2例，如下表：

表3 误判译文错误

更常见的是第二种：误判错误类型，2000词的英语文本存在4-5例。示例如下表：

表4 误判错误类型

结语

AI工具的意义在于简化工作流程，提高效率，但当我们核查ChatGPT的输出结果时，所耗费的时间并不少于纯人工检查机器翻译文本，甚至有可能更多。AI未来的发展、人们如何高效运用AI，都还有很长的路要走。

参考来源

MQM部分：

https://www.bilibili.com/read/cv20434363/
源文本来源：经济学人
参考译文来源1：

https://mp.weixin.qq.com/s/9Ol6v-uFh7t5IaBDMbSnig
参考译文来源2：

https://mp.weixin.qq.com/s/fd77_fc6dikPhk5yP_RAxw

特别说明：本文仅供学习交流，如有不妥欢迎后台联系小编。

翻译技术教育与研究ChatGPT专题组致力于探索发掘ChatGPT为代表的AI工具在语言服务不同阶段的应用，进而提高工作效率。专题组目前的主要方向有：探索提示词(prompt)及流程变更如何提升交互效果；了解及推介Github等平台上的AI应用，AI应用嵌入语言服务流程及其优化方式。小组通过定期会议及讨论确定选题方向并通过文章、视频等形式分享探索结果，欢迎通过文章留言为大家提供建议意见！

Was it helpful ?

还有问题？我们能帮忙吗？