在2024年5月16日的一篇论文中,南加州大学的Jared Coleman、Bhaskar Krishnamachari和Khalil Iskarous以及加州州立大学的Ruben Rosales介绍了一种新的机器翻译(MT)方法,该方法针对缺乏公开可用的双语或单语语料库的资源语言。
这种方法被命名为LLM-RBMT(LLM辅助的基于规则的机器翻译),结合了大型语言模型(LLMs)和基于规则的机器翻译(RBMT)技术的优势。
研究人员强调了大型语言模型在机器翻译中的特殊能力,但指出了它们在低资源或无资源语言场景中的局限性。“已经有很多努力来改进低资源语言的机器翻译,但是无资源语言受到的关注要少得多,”他们说。
尽管RBMT被认为是“过去的遗迹”,但研究人员强调了为资源不足的语言量身定制的RBMT系统的持续研究和开发。
在这项研究中,研究人员专注于欧文斯谷派尤特语(OVP),一种极度濒危的美洲土著语言,几乎没有公开数据,并开发了两种LLM辅助的RBMT工具:一种用于将OVP翻译成英语,另一种用于将英语翻译成OVP。作为大型语言模型,他们使用OpenAI的gpt-3.5-turbo和gpt-4。
对于OVP到英语的翻译,他们创建了一个基于选择的OVP句子生成器,用户可以选择不同的词类,如主语、动词和宾语,以形成有效的OVP句子。系统根据用户选择调整可用选项,以确保语法正确性。一旦创建了有效的OVP句子,该工具就会将其编码为结构化英语,然后在LLM的帮助下将其转换为自然语言句子。
对于英语到OVP的翻译,该工具允许用户输入自然语言的句子(在这种情况下是英语)。翻译过程包括使用LLM将输入句子简化为基本的主语-动词和主语-动词-宾语结构,删除不必要的元素,如形容词和副词。然后,简化的句子与可用的词汇一起使用,以使用句子构建工具创建有效的OVP句子。
研究人员解释说,大语言模型不直接与目标语言互动,但提供了如何有效利用基于规则的系统来产生与原始输入密切匹配的翻译的指导。
这些是OVP的第一个MT工具。然而,研究人员指出,这些工具旨在帮助语言学习者使用基本的句子结构表达思想,专注于语言教学和振兴,而不是通用翻译。
研究人员正在积极努力扩展翻译工具,加入更多的词汇,引入更复杂的句子结构,并为其他语言开发版本。
他们认为,这项研究为未来的工作开辟了许多方向,利用了大型语言模型在振兴极度濒危语言方面的有前途的能力。他们说:“大语言模型表现出的非凡的通用语言技能使他们成为帮助振兴极度濒危语言的有前途的工具。”
研究人员已经在GitHub上开源了代码。
(机器翻译,轻度译后编辑,仅供参考)
编辑:刘慧