虽然大型语言模型(LLMs)正在迅速取代神经机器翻译(NMT)模型,正如Unbabel的首席技术官João Graca最近在Slator播客中提到的那样,在某些利基领域,NMT仍在坚持下去。
Logrus Global、Ocean Translations和曼彻斯特大学在2023年12月进行的一项研究发现,在临床领域微调小型语言模型产生的翻译效果明显好于LLMs,并于2024年7月26日发表了一项新研究。
在这项最新研究中,专门从事人工智能模型训练的人工智能研究和基础设施公司AI Amplified的Bunyamin Keles、Murat Gunay和Serdar Caglar进一步探索了定制化NMT模型在医学翻译中的作用。
具体来说,AI Amplified团队使用MarianMT基本模型开发了为医学文本量身定制的小型NMT模型。
与2023年12月的研究不同,他们将LLMs纳入到循环中,以创建综合训练数据。Murat Gunay在接受Slator采访时表示:“我们观察到LLMs在生成合成数据方面特别有效,这对于训练我们的模型来说是非常宝贵的。”他们的模型接受了来自科学文章、临床文件和其他医学文本的合成和真实医学数据的训练,并以六种语言提供: 英语、德语、土耳其语、法语、罗马尼亚语、西班牙语和葡萄牙语。
作者认为,他们的方法,结合对高质量、特定领域数据的微调,使这些专门的NMT模型优于通用模型,甚至优于一些领先的LLMs。
他们指出,有更多参数的模型不一定能得到更高质量的分数,并强调数据的质量和微调过程往往比模型大小本身更重要。他们强调:“LLMs不一定比NMT更好,而且数据集和训练的质量也很重要。”
小型专业模型优于LLMs
作者将他们的模型的翻译质量与谷歌翻译、DeepL、GPT-4-Turbo在所有语言对中的翻译质量进行了比较。对于英-德医学翻译模型,他们将比较扩展到Claude-3。
他们的模型在多个自动评估指标(包括BLEU、METEOR、ROUGE和BERT)上的表现优于谷歌翻译、DeepL和GPT-4-Turbo,并通过ChatGPT和Claude AI作为“公正法官”的评估。他们选择了自动和基于LLMs的评估,而不是人工评估,“以减轻时间和成本限制”,同时仍然获得“对翻译质量的有价值的见解”。
“分析[…]表明我们的模型取得了非常令人满意的统计显著结果,”他们说,尽管他们仍然致力于不断改进他们的数据集和模型,以获得更高的性能分数。
为此,他们还强调需要“更多共享的开源基准测试数据”。为了使该领域的评估标准化,他们引入了一个新的医学翻译测试数据集。
他们的模型可以在他们的网站上进行测试,用户可以在那里探索演示翻译并亲眼目睹模型的功能。
作者的主要目标是实现“医学文本的零错误翻译”,认识到错误翻译在医疗保健环境中可能带来的潜在风险。“病人和医生之间的错误翻译可能会危及病人的安全,”他们说。
尽管有一些不同语言的医学翻译模型,但他们指出,鉴于医疗领域“对高端翻译服务的持续需求”,“对医学文本翻译模型的需求仍然很大”。
他们还强调,医学翻译对于弥合沟通差距“至关重要”,强调了机器翻译在医疗保健领域“不可或缺”的作用。
这些模型旨在供医疗保健专业人员和各种利益相关者使用,旨在“为全球卫生界做出重大贡献”,为“改进知识传播和改善医疗保健结果”铺平道路。
作者总结道:“这项研究为未来与医疗保健相关的人工智能发展铺平了道路。”
(机器翻译,轻度译后编辑,仅供参考。)
编辑:陈驭格