机器口译作为口语翻译的一个分支,正经历着飞速的发展。最近在这一领域取得的进展在强劲的端到端系统的开发中尤其明显。这些系统利用单一语言模型将口语内容从一种语言直接翻译成另一种语言。尽管这项技术令人印象深刻,但它目前只在离线语音翻译任务中得到最佳应用。当谈到实时同声翻译时(我的主要兴趣领域),级联系统及其多方面的组件和可能的配置仍然是黄金标准。尽管级联系统具有固有的复杂性和内在局限性,但它们呈现出一个明显的优势:它们擅长整合生成式人工智能的最新创新。这种兼容性为语音翻译质量的即时增强铺平了道路。
让人工智能读懂字里行间的意思
我最近接受了《国家报》(El País)的采访,在采访中我表示,现实世界中语音翻译的最大挑战之一至少在一定程度上是可以通过大型语言模型(LLM)来解决的,比如ChatGPT或LLama2。我正在解决的挑战是以一种受交流语境影响的方式进行翻译的能力,这需要随机应变的“理解”形式。我在引号中使用“理解”一词,因为它具有争议性且缺乏一个普遍接受的定义。出于我们的目的,让我们将“理解”定义为积累足够知识的能力,以使系统能够连贯地响应并与交流语境保持一致。这包括一些技能,如基础的指代消解(识别谁在和谁说话、他们的性别、地位和角色),调整术语、语域和风格(作为专家和外行人说话),辨别字面陈述之外的隐含意义(推断潜台词,意图等)等。传统的神经机器翻译(NMT)在这些方面存在不足。相反,尽管有其内在的局限性,大型语言模型的推理和语境学习能力在这些领域表现出了非凡的熟练程度。因此,它们可能是帮助语音翻译超越其主要限制的关键,该限制即缺乏与交流语境的内在联系。不用说,这为更丰富的翻译体验铺平了道路。
利用大型语言模型增强语音翻译
如果您已经与先进的大型语言模型进行了广泛交互(例如,GPT-3.5-turbo),它的潜力变得清晰。将交流行为分解成其核心组成部分。随着行为发展,参与者引入新的信息,评估任何一方采取具体行动的可能性。探索关于说话者意图的模型,预测对话的潜在轨迹,并且,有了足够的语境信息,你将观察到大型语言模型可以从这些数据中收集到有趣的理解。这就是我所说的情境意识的依据(不同于这里所描述的“更高”认识水平)。
这种能力值得探索。目前,我的研究旨在利用大型语言模型来:
-
通过语境消除歧义。
-
理解并不断增加关于该交流事件的知识。
-
评估系统对所获得知识的把握程度。
-
基于对该交流的理解触发翻译决策。
这一进程在各个方面都提出了令人着迷的挑战。从计算机科学的角度来看,问题出现了:一个大型语言模型对一个交流事件的理解能够达到多深的程度呢?我们可以采取什么措施来帮助它理解呢?在翻译方面,一旦我们积累了足够的语境数据,我们如何利用它来战略性地增强机器口译呢?
集成框架语义以实现语境意识
为了解决这一挑战的首要方面,我正在开发一个方法,其灵感源自框架语义——一个由Charles J. Fillmore于20世纪70年代提出的理论。这个理论将语言语义学与百科知识联系在一起。在这个框架内,在一个新的语境中使用一个词意味着将这个词与过去的用词进行比较,看看它们是否在意义上匹配。Fillmore用“场景”和“框架”的概念阐明了这一点。“框架”这个术语代表了语言选项或结构的集合,这个集合继而又唤起了一种心理表征或“场景”。Fillmore将“场景”描述为任何可以识别的体验、互动、信念或想象,无论这是否是可以看见的。场景和框架无休止地互相刺激,刺激模式包括框架对场景、场景对框架、场景对场景和框架对框架。更确切地说,这个激活过程与特殊的语言结构(如从句)触发联想的情况有关。这些联想随后又触发了其他语言结构,并引发了更多联想。这种相互作用确保文本中每一个语言元素都受到另一个元素的影响,从而有助于从语言陈述中提取甚至构建意义。本质上,它促进了对情境的理解或阐释。我的志向是使用大型语言模型来综合激发并调节场景和框架之间的相互作用,我致力于将语境意识注入翻译过程。
情境意识中的挑战和机遇
语音翻译为探索这种方法提供了一个理想的环境。它与对话设计有相似之处——可以说对话设计是它最直接的应用——但它的优势是更直接的评估标准和指标。在我的假设中,如果大型语言模型要显著增强翻译过程,它就需要转换成交流代理,需要擅长辨别现实世界情境的细微差别、逻辑和动态变化,然后将这种理解转化为翻译。这是一个不小的壮举,因为一方面考虑到大型语言模型目前的局限性,另一方面又考虑到现实生活中交流的复杂性,尤其是多语言交流。大型语言模型的理解仅仅基于文本所能提供的洞察力。例如,大型语言模型缺乏处理视觉符号的能力,而对于语音翻译来说至关重要的是,大型语言模型无法从声音线索中解码细微差别,如韵律。毫无疑问,这一不断扩大的挑战清单对于有效的口头交流是至关重要的,而这些挑战现在已经成为限制。
破译语言输入
然而,大型语言模型破译纯语言输入的能力是值得称赞的,因为通过简单推理可以获得大量知识。令人惊讶的是,大型语言模型从极少的、通常是部分的输入中提取见解的能力很强(框架)。特定语境数据的可用性(场景)自上而下地增强了这个代理对情景的理解,创建了“场景-框架-场景”激活的连续反馈循环。有趣的是,虽然对场景的初步理解对于启动这个循环至关重要,也是因此,这个理解一定会受到外部强制(例如通过描述一般的交流环境),但是随着交流的发展,场景将通过整合新的框架而逐渐自动丰富。这继而又使得代理自主地适应不断发展的交流环境。这是情境意识在起作用。
确保语言处理的精确性
让我们明确一点,这种方法并非没有挑战。因为大型语言模型主要在语言表层结构操作,所以框架/场景激活很容易出错。我指的不是众所周知的幻觉,而是对正在进行的对话的明显误解。人类拥有强大的控制机制来防止这种偏差,并允许对话者(或我们特定情况下的口译员)与交际情景的发展保持一致。当然,人类在这里也不是完美的,“沟通不畅”或“误解”无时无刻不在发生。但是这些机制非常复杂,到目前为止,它们仍然很难被计算机模拟。让我们不要忘记,我们的目标不是完美,而是一步一个脚印地攀登这个复杂的阶梯。
利用理解力实现实时翻译
现在,假设我们已经通过场景和框架激活获得了对交流的某种程度的“理解”,那么紧迫的问题就变成了如何利用这些理解来改进翻译。以及如何实时做到这一点,即在不知道对话完整上下文的情况下(顺便提一下,这是机器口译的另一个特殊挑战之一)。
出现了两种主要方法:隐式方法和显式方法。它们可以和谐共处。但是让我们简单地分别考虑一下这两种方法。隐式策略包括使用大型语言模型来掌握语境,同时根据这种理解调整翻译。从本质上讲,由于其固有的过程,大型语言模型直接提供了一个更适合语境的翻译,没有任何外部干预。我们已经可以展示令人印象深刻的改进(大约25%取决于语言组合),只需将大型语言模型注入翻译管道,并精心制作与重要任务相一致的指令。
虽然这种方法很简单,并产生了明显的改进,但我发现它没有那么吸引人,而且也不是没有缺点。更吸引人的是显式策略。在这里,我们试图从场景/框架激活中提取理解力,并利用这种元语言信息来指导翻译过程,即通过将这种知识嵌入到动态指令序列中。这与语境学习以及思维链提示技术两者有相似之处,但这需要进行重大修改,以解决口语翻译带来的独特挑战,这些挑战太广泛,无法在此深入探讨。
(机器翻译,轻度译后编辑,仅供参考。)
编辑:王云菲