大多数时候,现场交流是使用语言和非语言手段进行的,适应对话者的情境需求和交流目标。当然,这在多语言交流和机器口译中也起着至关重要的作用。
典型的言语手段是话题化,即将信息最突出的部分放在句子的开头,以传达特定的意思。
例如:像“我不会吃那个披萨”这样的句子可以转换成“那个披萨我不会吃”来强调你不会吃那个特定的披萨,但你会吃旁边的那个,可能表达对第一个披萨一定程度的厌恶(它可能有菠萝!)。
至于非语言手段,说话者可以看看他们所指的是什么,以提高听者的理解。
例如:如果有人在看着一个特定的物体时说,“那真的很大”,听者会立即知道“那”是什么,也许是一块蛋糕。在没有视觉上下文的情况下,人们可能会想知道这个指代的内容。 “那个”是什么意思?在多语言交流的情况下,直译可能就足够了,也可能没有达到目的。睁大的眼睛和扬起的眉毛表示惊讶,很明显,这个人是在表达震惊或惊讶,而不是要求解释某个特定的物体是什么。
我之前探索过视频中的情感分析,强调了这种视觉线索(如面部表情或肢体语言)为更微妙的翻译提供信息的潜力。同样,了解房间里的物品、人们的穿着、衣服的颜色、是否戴眼镜等等,都可能成为更好地理解人们所说内容的重要信息。换句话说,视觉在现场翻译中扮演着重要的角色。虽然没有视觉提示的交流肯定是可能的,但很明显,交流的某些方面会受到损害。
机器口译的最大挑战之一恰恰是:它无法感知视觉线索。机器口译是单峰的。为了理解这种情况,翻译决策完全基于语言线索,忽略了其他重要的交流层面,如视觉刺激。例如,神经机器翻译(NMT)是单峰的。更大的语言模型是机器翻译的一个重要发展,也是单峰的。虽然它们引入了某种程度的上下文推理,正如我在关于机器翻译中的情境意识的文章中所讨论的那样,通过语境化有可能提高NMT的翻译质量,但它们本质上仍然只依赖于语言输入。
如果我们现在可以在翻译过程中添加视觉信息会怎么样?
向视觉增强机器口译的飞跃可能指日可待(即几年后)。新发布的视觉系统与大语言模型相结合,具有令人印象深刻的解剖图像的能力,离实时视频分析仅一步之遥,现在能够将视觉数据转换为我所说的情景元信息(即我们所看到的),因为缺乏更好的术语。这可以用来丰富翻译过程,实现更高水平的质量和准确性。
让我们来看看我们今天可以从这张图像(图1)中学到什么,这张图像可以从实时视频源中捕获。这个场景是一个典型的舞台场景。例如,我们希望生成关于三个说话者、他们的服装和其他相关细节的情景元信息,以帮助翻译过程。在适当的提示下,GPT-4等大型语言模型结合视觉系统可以提供图2所示的描述。
描述的深度和粒度是惊人的。可以检索的信息类型和详细程度可以根据特定需求进行定制。有大量的信息可以提取。不仅是示例中关于人的信息,还有关于设置的细节、关于背景中海报的信息等。为了什么?例如,考虑场地可能规定的正式程度。如果我们知道这些信息,我们就可以相应地调整翻译的正式程度。
为了使这些信息对计算机友好,特别是对于负责翻译的大型语言模型,我们需要系统地构建这些数据。然后,通过帧和场景提示,可以在翻译过程中使用关于情境的结构良好的元信息。幸运的是,以计算机友好的方式构建数据是简单的。通过几次迭代提示,我们可以导出提取的元数据的良好结构,如图3所示。
这种方法的关键是我们已经完全自动地实现了对场景的详细理解,在本例中是说话者的服装。在语音翻译中,该数据可用于细化翻译决策。
语音翻译的这种改进是强大的。这主要是因为它模仿了人类在人际交流过程中每天有意识或无意识地参与的固有过程:对多个信息源进行三角测量,以理解人们所说内容的含义。换句话说,它有助于将翻译过程置于交际环境的现实中。
前路漫漫,未知数多,但轨迹再一次显得清晰。语音翻译系统的复杂性可能呈指数增长。但是多语言交流确实很复杂。如果你想实现高质量的翻译,我们将不得不走这条复杂的道路(至少在扩展或新方法——也许——解决翻译质量问题之前)。
小建议
你可以试试Lava,一个多模态模型的开源版本。
(机器翻译,轻度译后编辑,仅供参考。)
编辑:王云菲