研究发现，语言模型可以预测最适合的翻译技术

研究人员指出了机器翻译中仍然存在的一系列持久问题，如逐字翻译、假朋友、歧义、信息的遗漏或添加以及文化不敏感，导致翻译质量低下，可能缺乏清晰度和准确性。这些问题源于系统使用不正确的翻译技术，这是翻译人员不会做的事情。他们强调说：“人工生成的翻译过程依赖于多样化的翻译技术，这对确保语言适当性和流畅性至关重要。”

此外，他们强调：“利用翻译技术对于解决翻译问题、提高翻译质量并确保上下文适当的翻译至关重要。”

周和范德金斯特建议，在机器翻译（MT）过程中事先自动识别翻译技术可以有效地引导和改进。此外，这些技术可以作为大型语言模型（LLM）生成高质量翻译的提示。

他们区分了两种翻译情景：从零开始的翻译和后编辑。针对每种情景，他们调查了预训练的跨语言语言模型（如mBART、mBERT和mT5）是否可以被微调，以准确预测翻译技术，从而为从零开始的翻译和后编辑，甚至自动后编辑（APE）过程提供指导，以产生良好的翻译。

“利用翻译技术对于解决翻译问题、提高翻译质量并确保上下文适当的翻译至关重要。”

高预测准确度

为了微调模型，他们使用了10万个数据对，每个数据对包含一个源句子、一个目标句子、两种语言中对齐的单词或短语，以及指示所使用的翻译技术的标签。

周和范德金斯特专注于英汉语言对，并考虑了《英汉翻译技巧标注指南》中定义的十一种翻译技巧：

直译：逐字翻译
等价：对成语、习语或固定表达的非直译
转换：改变语法范畴（不改变意思）
调整：根据上下文在词汇层面引入轻微的意义变化
调整+转换：结合调整和转换
特指：在上下文中指定片段的含义或通过事物来翻译代词
泛化：将成语翻译为非固定表达或去除隐喻意象
比喻翻译：使用成语翻译非固定表达，或使用隐喻表达非隐喻
词汇转换：改变动词时态、语气、决定词、单/复数形式等其他微小的变化
解释：提供源文本中隐含的澄清
简化：有意在翻译中省略某些词语

他们发现，一旦为从零开始的翻译和后编辑情景进行了微调，预训练模型“能够熟练预测最适合的翻译技巧。”具体来说，结果显示了对于两种情景的高预测准确度，从零开始的翻译为82%，后编辑为93%。周和范德金斯特指出，“后编辑过程甚至显示出更大的潜力。”

作者承认，当前重点是模型准确预测两项任务的最适合的翻译技巧的能力。未来，他们计划探索关于最适合的翻译技巧的信息如何指导NMT系统或LLMs生成更好的翻译。

周和范德金斯特认为，这项研究的发现可以“为机器翻译生成领域的未来进展铺平道路。”

（机器翻译，轻度译后编辑，仅供参考）

原文链接

编辑：刘煜珍

Was it helpful ?

还有问题？我们能帮忙吗？