大型语言模型能翻译无资源语言吗?

在2024年5月16日的一篇论文中,南加州大学的Jared Coleman、Bhaskar Krishnamachari和Khalil Iskarous以及加州州立大学的Ruben Rosales介绍了一种新的机器翻译(MT)方法,这种方法对缺乏公开可用的双语或单语语料库的无资源语言“特别有用”。

这种方法被称为LLM-RBMT(LLM辅助的基于规则的机器翻译),结合了大型语言模型(LLMs)和基于规则的机器翻译(RBMT)技术的优势。研究人员强调了LLMs在机器翻译中的非凡能力,但指出了它们在低资源或无资源语言场景中的局限性。他们说:“在改进低资源语言的机器翻译方面已经做了很多努力,但是没有资源的语言受到的关注要少得多。”

尽管RBMT被认为是“过去的遗迹”,但研究人员强调了为资源不足的语言量身定制的RBMT系统的持续研究和开发。

在这项研究中,研究人员专注于欧文斯谷派尤特语(OVP),这是一种极度濒危的美洲土著语言,几乎没有公开可用的数据,并开发了两个LLM辅助的RBMT工具:一个用于将OVP语翻译成英语,另一个用于将英语翻译成OVP语。作为LLMs,他们使用OpenAI的gpt-3.5-turbo和gpt-4

对于OVP到英语的翻译,他们创建了一个基于选择的OVP句子生成器,用户可以选择不同的词类,如主语、动词和宾语,以形成有效的OVP句子。系统根据用户选择调整可用选项,以确保语法正确。一旦创建了有效的OVP句子,该工具会将其编码为结构化英语,然后在LLM的帮助下将其转换为自然语言句子。对于英语到OVP的翻译,该工具允许用户输入自然语言的句子(在这种情况下是英语)。翻译过程包括使用LLM将输入句子简化为基本的主语——动词和主语——动词——宾语结构,删除形容词和副词等不必要的元素。然后将简化的句子与可用的词汇一起使用,使用造句工具创建有效的OVP句子。研究人员解释说,LLMs不直接与目标语言交互,而是就如何有效地利用基于规则的系统来产生与原始输入紧密匹配的翻译提供指导。

这些是OVP的第一批MT工具。然而,研究人员指出,这些工具旨在帮助语言学习者使用基本句子结构表达想法,专注于语言教学和振兴,而不是通用翻译。研究人员正在积极致力于通过整合更多词汇、引入更复杂的句子结构以及开发其他语言的版本来扩展翻译工具。他们认为,这项研究为未来的工作开辟了许多方向,利用LLMs在振兴极度濒危语言方面的有前途的能力。他们说:“LLMs展现出的非凡的通用语言技能使其成为帮助重振极度濒危语言的有前途的工具。”研究人员已经在GitHub上开源了代码。

机器翻译,轻度译后编辑,仅供参考。

编辑:陈驭格

原文链接