正如 Unbabel 首席技术官若昂·格拉萨(João Graca)在最近的 Slator 播客中提到的那样,虽然大型语言模型(LLM)正在迅速取代神经机器翻译(NMT)模型,但在某些利基领域,神经机器翻译仍在坚持。
2023 年 12 月 Logrus Global、Ocean Translations 和曼彻斯特大学的一项研究发现,在临床领域微调小型语言模型所产生的翻译效果明显优于 LLM,继此发现之后,2024 年 7 月 26 日又发表了一项新研究。
在这项最新研究中,专门从事人工智能模型培训的人工智能研究和基础设施公司 AI Amplified 的 Bunyamin Keles、Murat Gunay 和 Serdar Caglar 进一步探索了量身定制的 NMT 模型在医学翻译中的作用。具体来说,AI Amplified 团队利用 MarianMT 基础模型开发了为医学文本量身定制的小型 NMT 模型。
与 2023 年 12 月的研究不同,他们将 LLM 纳入循环,以创建合成训练数据。穆拉特·古奈在接受 Slator 采访时说:“我们发现,LLM 在生成合成数据方面特别有效,这对训练我们的模型非常有价值。”他们的模型是在来自科学文章、临床文件和其他医学文本的合成和真实医学数据上训练出来的,有六种语言版本:英语 、德语、土耳其语、法语、罗马尼亚语、西班牙语和葡萄牙语。
作者认为,他们的在“LLM 在回路中”方法与在高质量、特定领域数据上的微调相结合,使这些专门的 NMT 模型的性能优于通用模型,甚至优于一些领先的 LLM。
他们指出,参数越多的模型并不一定能得到越好的质量分数,并强调数据质量和微调过程往往比模型大小本身更重要。他们强调说:“LLM 不一定(比 NMT)更好,(……)数据集和训练的质量也至关重要。”
小型专业模型优于 LLM 模型
在所有语言对中,作者将其模型的翻译质量与谷歌翻译、DeepL 和 GPT-4-Turbo 进行了比较。对于英德医学翻译模型,他们将比较范围扩大到了 Claude-3。
在多个自动评估指标(包括 BLEU、METEOR、ROUGE 和 BERT)以及作为“公正评委”的 ChatGPT 和 Claude AI 的评估中,他们的模型都优于谷歌翻译、DeepL 和 GPT-4-Turbo。他们选择了自动评估和基于 LLM 的评估,而不是人工评估,“以减轻时间和成本的限制”,同时还能获得“对翻译质量的宝贵见解”。
他们说:“分析(……)表明,我们的模型取得了非常令人满意且具有统计学意义的结果。”不过,他们仍致力于不断改进数据集和模型,以取得更高的性能分数。
为此,他们还强调了“共享更多开源基准测试数据”的必要性。 为了使这一领域的评估标准化,他们引入了一个新的医学翻译测试数据集。
他们的模型可在其网站上进行测试,用户可以浏览演示译文,亲眼目睹模型的功能。
零错误医学翻译
作者的主要目标是实现“医学文本的零错误翻译”,并认识到错误翻译在医疗环境中可能带来的潜在风险。他们说:“病人和医生之间的翻译错误会危及病人的安全。”
尽管已经有了一些不同语言的医学翻译模型,但他们指出,鉴于医学领域“对高端翻译服务的持续需求”,医学领域“对医学文本翻译模型的需求仍然很大”。
他们还强调,医学翻译对于弥合沟通鸿沟“至关重要”,突出了机器翻译在医疗保健领域“不可或缺”的作用。
这些模型是为卫生保健专业人员和各种利益相关者设计的,旨在“为全球卫生界做出重大贡献”,为“改进知识传播和改善医疗成果”铺平道路。
作者总结道:“这项研究(……)为未来与医疗相关的人工智能发展铺平了道路。”
(机器翻译,轻度译后编辑,仅供参考)
编辑:王宇婷
资讯总结:虽然大型语言模型(LLM)正在迅速取代神经机器翻译(NMT)模型,但在某些利基领域,神经机器翻译仍在坚持。AI Amplified 团队利用 MarianMT 基础模型开发了为医学文本量身定制的小型 NMT 模型,他们的在“LLM 在回路中”方法与在高质量、特定领域数据上的微调相结合,使这些专门的 NMT 模型的性能优于通用模型,甚至优于一些领先的 LLM。