大型语言模型(LLMs)正日益成为我们现代社会不可或缺的一部分。大型语言模型是一种机器学习技术,能够生成语言或将语言翻译成类似人类的文本。ChatGPT、YouTube自动字幕,甚至谷歌或必应等搜索引擎都利用在大型数据集上训练的LLMs来整理对查询的最自然和“明智”的响应,总结文本文档,完成句子,并将口语或书面文本从一种语言翻译成另一种语言。然而,绝大多数大型语言模型只接受过口语测试,听力受损者的手语在有效性测试中经常被忽视——直到现在。兰卡斯特计算与通信学院的Hossein Rohmani博士与刘军教授以及新加坡技术与设计大学的博士生、林庚福和何一起使用现成的大语言模型,并通过将手语视频序列转换为类似语言的层次结构(即“字符—单词—句子”结构)来提示手语视频,以使手语与标准大语言模型兼容。
该团队翻译手语的方法不同于通常使用的方法,通常使用的方法主要是利用对每个符号含义的基本解释,即所谓的“注释”来构建翻译。虽然在翻译单个手语单词方面是有效的,但基于注释的翻译方法往往会遭受信息损失,因为面部表情和头部运动通常不会被转录成注释。此外,这一过程严重依赖于专家首先注释符号,以训练翻译模型,这意味着这种方法非常耗费人力,对于更罕见的手语可能不可行,甚至不可能。通过使用大语言模型,Rahmani博士和他的团队绕过了转录语言和调整预先训练的模型来翻译手语的需要——一旦视频被转换成它可以理解的结构,大语言模型就能够执行翻译。这个项目标志着第一次现成的大语言模型被用来翻译任何形式的手语。
该团队在两种手语(一种德语和一种汉语)上测试了这种新的基于大语言模型的框架,要求算法将手语翻译回各自语言的口语形式。为了衡量他们方法的相对成功,他们采用了许多用于评估机器翻译的常用指标。这些度量评估翻译的准确性,计算LLM正确翻译了多少单词以及有多少单词的顺序正确。
他们发现,他们的框架——被称为SignLLM——在产生类似人类的手语翻译方面比其他当代实验更准确。特别是,SignLLM的表现明显优于其他gloss-free手语翻译器,尤其是在较长句子的翻译准确性方面。
关于SignLLM测试的成功,Hossein Rahmani博士评论说:“通过利用大型语言模型(LLMs),我们可以有效地利用它们强大的语言能力和语义理解,这些能力和理解是从多种语言的大规模训练中获得的。这对于促进手语的翻译非常有帮助,特别是那些鲜为人知的手语,因为这些手语的可用数据往往有限。因此,我们的工作代表着在与听障社区沟通方面朝着更好的无障碍和包容性前进。
此外,我们的工作暗示了技术方面的潜在范式转变。它不是仅仅关注手语翻译的直接建模和学习,而是建议转向加强从手语视频中提取类似语言的表征,这可以被大语言模型很好地理解。这也强调了有限责任管理系统的显著多功能性,指出了跨视频和3D模型等模式的潜在应用”。
(机器翻译,轻度译后编辑,仅供参考)
编辑:刘慧