在 2024 年 8 月 29 日发表的一篇论文中,维也纳大学的米格尔-里奥斯(Miguel Rios)探讨了经过指令调整的大型语言模型(LLM)如何改进专业领域的机器翻译(MT),尤其是医学领域。
Rios 指出,虽然最先进的 LLM 在高资源语言对和域中取得了可喜的成果,但在专业化、低资源域中,它们在准确性和一致性方面却往往力不从心。”Rios 说:”在专业领域(如医疗),与标准神经机器翻译模型相比,LLM 的性能较低。
他还解释说,LLMs 在低资源领域的局限性源于其训练数据,这些数据可能无法充分涵盖有效翻译所需的特定术语和上下文的细微差别。
为了应对这一挑战,里奥斯建议通过指令调整(一种利用各种任务的数据集对模型进行微调的技术)纳入专业术语,从而提高 LLM 的性能。”他说:”我们的目标是将术语、语法信息和文档结构约束纳入医学领域的 LLM。
具体地说,里奥斯建议将医学术语纳入对法律硕士的指导。在翻译片段时,会向模型提供翻译中应使用的相关医学术语。
此外,该方法还包括识别与所翻译文本相关的成对术语(源术语和相应的目标术语),确保在翻译过程中将正确的医学术语应用于这些片段。
如果一个或多个候选术语在一个片段中成功匹配,它们就会被纳入提供给 LLM 的指令模板中。这意味着模型收到的提示不仅指示它翻译文本,还指定要使用哪些医学术语。
如果没有找到匹配的候选术语,就会给模型一个基本翻译任务提示,指示它在没有任何特定医学术语指导的情况下翻译文本。
尤纳贝尔塔领先一步
在实验中,里奥斯利用谷歌的 FLAN-T5、Meta 的 LLaMA-3-8B 和 Unbabel 的 Tower-7B 作为基准模型,应用 QLoRA 进行参数高效微调,并在英语-西班牙语、英语-德语和英语-罗马尼亚语语言对中进行了测试。
结果显示,在 BLEU、chrF 和 COMET 分数等自动指标方面,经过指令调整的模型 “明显 “优于基线模型。具体而言,Tower-7B 模型在英语-西班牙语和英语-德语翻译中表现最佳,其次是 LLaMA-3-8B,该模型在英语-罗马尼亚语翻译中表现出色。
里奥斯在接受 Slator 采访时表示,他打算将来与专业译员一起进行人工评估,因为仅靠自动化指标可能无法完全反映模型在翻译中生成正确医学术语的程度。
<ahref=”https: slator.com instruction-tuned-large-language-models-outperform-baselines-in-medical-translation”>
原⽂链接
3912