在 2024 年 6 月 27 日的一篇 论文中研究人员 Unbabel 和 Instituto de Telecomunicações(电信研究所)共同推出了大型语言模型 xTOWER。 大型语言模型 (LLM) 设计用于生成翻译错误的 “高质量 “解释,并利用这些解释提出改进翻译的建议。
研究人员解释说 机器翻译 (尽管机器翻译(MT)系统性能强大,但其产生的译文往往存在错误。 “了解这些错误可能有助于提高翻译质量和用户体验,”他们说。
建立在 TOWERBASE – xTOWER 提供详细的、人类可读的翻译错误解释,并根据分析结果提出纠正建议。
具体来说,这一过程包括将源文本及其译文输入到 xCOMETxCOMET 可为翻译注释错误跨度并给出质量分数。 然后,完整的输入(即源文本及其译文)、注释译文和质量分数被传递给 xTOWER,xTOWER 会为每个错误跨度生成解释,并根据这些解释提出新的校正译文。
Unbabel 高级研究科学家里卡多-雷(Ricardo Rei)与斯莱特讨论了 xTOWER 如何解决 COMET 发布以来遇到的某些挑战。 第一个挑战是理解质量得分和突出显示的具体翻译错误。 虽然 xCOMET 通过提供次要、主要和关键标签的注释部分解决了第一点,但它缺乏对这些错误性质的解释。 推特从而提供 “更具洞察力和更详细的质量报告”。
🧵我很高兴地宣布我们的最新论文:
xTower: 用于解释和纠正翻译错误的多语言 LLM
链接: https://t.co/T9TWwz4aw8
与 @nunonmg @swetaagrawal20 @RicardoRei7 @zmprcp @andre_t_martins 以及更多!
在 @itnewspt @Unbabel @istecnico pic.twitter.com/GqdbWmvFWy
– 马科斯-特雷维索 (@MarcosTreviso) 2024 年 7 月 1 日
第二个挑战是修正已发现的错误。 受思维链(CoT)推理的启发,xTOWER 可自动执行 后编辑 (APE) 使用质量评分和注释。
xTOWER 可独立于参考译文运行。 此外,它 “与错误跨度的来源无关”,可以处理通过人工注释或工具自动获得的错误。
理解翻译错误
研究人员请专家译员根据 xTOWER 的解释与错误跨度的相关性及其对理解错误性质和提高翻译质量的帮助程度对其进行评估。
他们发现,xTOWER 通过提供与已识别错误相关的解释,提高了错误的可解释性。 研究人员强调,”xTOWER 可以在自动过程中提高机器翻译输出的可解释性”。
专家译员认可 xTOWER 的解释,认为 “有助于理解翻译错误,总体上有助于改进翻译”。 研究人员发现,在所有语言对中,xTOWER 建议的校正提高了原始译文的整体翻译质量,尤其是在初始译文质量较低的情况下。
他们还通过与其他 LLM(如 GPT-3.5 Turbo、Mixtral 8x7B 和 TOWERINSTRUCT 13B)进行比较,评估了 xTOWER 的校正翻译质量。 xTOWER 的表现优于 TOWERINSTRUCT 13B 和 Mixtral 8x7B,但不优于 GPT-3.5 Turbo。 不过,他们发现,与 GPT-3.5 Turbo 相比,xTOWER 能更好地利用错误跨度和解释来修复错误。
研究人员强调了 xTOWER 的 “潜力,它不仅能为自动翻译提供可信且有用的解释,还能利用这些解释提出纠正翻译的建议”。
研究人员还提出了一种混合方法,可动态选择使用原始译文或查询 xTOWER 进行校正。
在这种混合方法中,会计算原始翻译的 COMET 或 xCOMET 质量得分。 如果质量得分高于某个阈值,则保留原始译文,xTOWER 无需提供校正译文。
但是,如果质量得分低于该阈值,xTOWER 就会提供校正译文。 在这种情况下,如果校正译文的质量得分高于原始译文的质量得分,则选择校正译文。 否则,保留原始译文。
Rei 向 Slator 解释说,这种混合方法反映了机器翻译后编辑(MTPE)。MTPE)工作流程,其中只有在出现质量估计时才进行后期编辑。 质量评估 (QE) 模型确认翻译需要改进。
研究人员认为,这种混合方法只在必要时查询 xTOWER,因此能显著提高翻译性能并降低推理成本。
(机器翻译,轻度译后编辑,仅供参考)
编辑:刘煜珍