在2024年3月21日的一篇论文中,来自鲁汶大学的Fan Zhou和Vincent Vandeghinste展示了语言模型可以预测翻译和后编辑任务中最适合的翻译技术。
研究人员指出了机器翻译中仍然存在的一系列持久问题,如逐字翻译、假朋友、歧义、信息的遗漏或添加以及文化不敏感,导致翻译质量低下,可能缺乏清晰度和准确性。这些问题源于系统使用不正确的翻译技术,这是翻译人员不会做的事情。他们强调说:“人工生成的翻译过程依赖于多样化的翻译技术,这对确保语言适当性和流畅性至关重要。”
此外,他们强调:“利用翻译技术对于解决翻译问题、提高翻译质量并确保上下文适当的翻译至关重要。”
周和范德金斯特建议,在机器翻译(MT)过程中事先自动识别翻译技术可以有效地引导和改进。此外,这些技术可以作为大型语言模型(LLM)生成高质量翻译的提示。
他们区分了两种翻译情景:从零开始的翻译和后编辑。针对每种情景,他们调查了预训练的跨语言语言模型(如mBART、mBERT和mT5)是否可以被微调,以准确预测翻译技术,从而为从零开始的翻译和后编辑,甚至自动后编辑(APE)过程提供指导,以产生良好的翻译。
“利用翻译技术对于解决翻译问题、提高翻译质量并确保上下文适当的翻译至关重要。”
高预测准确度
为了微调模型,他们使用了10万个数据对,每个数据对包含一个源句子、一个目标句子、两种语言中对齐的单词或短语,以及指示所使用的翻译技术的标签。
周和范德金斯特专注于英汉语言对,并考虑了《英汉翻译技巧标注指南》中定义的十一种翻译技巧:
-
直译:逐字翻译
-
等价:对成语、习语或固定表达的非直译
-
转换:改变语法范畴(不改变意思)
-
调整:根据上下文在词汇层面引入轻微的意义变化
-
调整+转换:结合调整和转换
-
特指:在上下文中指定片段的含义或通过事物来翻译代词
-
泛化:将成语翻译为非固定表达或去除隐喻意象
-
比喻翻译:使用成语翻译非固定表达,或使用隐喻表达非隐喻
-
词汇转换:改变动词时态、语气、决定词、单/复数形式等其他微小的变化
-
解释:提供源文本中隐含的澄清
-
简化:有意在翻译中省略某些词语
他们发现,一旦为从零开始的翻译和后编辑情景进行了微调,预训练模型“能够熟练预测最适合的翻译技巧。”具体来说,结果显示了对于两种情景的高预测准确度,从零开始的翻译为82%,后编辑为93%。周和范德金斯特指出,“后编辑过程甚至显示出更大的潜力。”
作者承认,当前重点是模型准确预测两项任务的最适合的翻译技巧的能力。未来,他们计划探索关于最适合的翻译技巧的信息如何指导NMT系统或LLMs生成更好的翻译。
周和范德金斯特认为,这项研究的发现可以“为机器翻译生成领域的未来进展铺平道路。”
(机器翻译,轻度译后编辑,仅供参考)
编辑:刘煜珍