研究发现专家与GPT-3.5口译评价有很强的相关性

分享

其他推荐

欧洲机器翻译协会(EAMT)2024年会议的一篇论文中,翻译技术研究人员Xiaoman Wang(利兹大学)和Claudio Fantinuoli(美因茨大学和Kudo的首席技术官)发现,促使Open AI的GPT-3.5评估翻译语音的质量近似于人类的评估。

该研究探讨了人类同声传译和人工智能语音翻译的自动指标与专家评估之间的相关性,并表明大型语言模型(LLM)在各种评估方法中与人类得分呈正相关。

在人工智能(AI)的帮助下衡量口译质量,对于专业口译员、口译培训师、学生以及机器语音翻译开发人员来说,作为一种提高表现的工具,可能会有所帮助。

评估同声传译的质量是一项复杂的任务。这是由于实时多语言交流的分层细微差别造成的。此外,口译员经常采用非线性策略,如改写、适应和扩展。这些策略有助于以适合上下文的方式传递消息。

尽管如此,解释质量评估可以为从业者、教育者和受训者、学者、认证机构,甚至客户和最终用户提供有价值的见解。

然而,像任何人工评估一样,它也很耗时和资源密集,因此只能在有限的情况下进行。

两位研究人员进行了初步研究,以调查评估同声传译的自动化指标的可靠性。他们测量了自动评估结果和专家评估之间的联系。
这些评估集中在一个特征上:从一种语言到另一种语言的意义转移的准确性。

由三名专业口译员和一个语音翻译引擎(Kudo的人工智能语音翻译,由Fantinuoli亲自领导)提供的口译接受了测试。

人工智能与人类评估竞争

研究人员首先使用了一个由18名专业口译员和双语人士组成的团队,对12篇现实演讲的英语和机器翻译进行人工评分。

将人工评估作为与自动评估指标进行比较的基准。评分者只关注于测量两种语言之间信息的可信度。口译和口语的所有其他特征都没有考虑在内。

虽然评价者不知道他们正在评分的转录是由人还是机器制作的,但他们之间的评分一致性非常不稳定,而且普遍很低。

这证明了衡量口译活动的复杂性,以及确定什么是良好的演讲演绎所涉及的主观性程度。

然后,研究人员考虑了各种自动度量来计算转录源和目标演讲之间的语义相似性(即概念的对应性)。

在这些方法中,Wang和Fantinuoli研究了LLM,即OpenAI的GPT-3.5如何在这样的任务中执行。

他们发现,当直接提示时(“给定英语和西班牙语的两个句子,从1到5评价它们的相似性,其中1不相似,5非常相似”),这显示出与人类判断的高度相关性,受益于它的大上下文窗口。

研究数据集可在GitHub上获得,并且也可以以易于阅读的电子表格PDF格式访问和查询指定分数的转录。

口译员和LSPs申请

人工智能支持的质量评估的整合可以提供对新资源和新观点的解释。

口译员可以将人工智能反馈应用于其口译的各个方面,以实现持续的专业发展。如果实时提供这样的见解,口译员甚至可以进行即时调整,提高他们的整体表现。

同样,口译培训师和学生可以使用自动质量评估作为额外的资源,进一步详细说明课堂上的口译过程。

语音翻译系统的设计者也可以找到自动评估的应用程序,以简化对自己技术的评估,从而加快开发周期。

然而,在这个阶段,该机制仍然只提供近似和受限的估计能力。因此,所有的审查和评估过程都应该在专家的指导下进行,以弥补全自动方法的缺点。

尽管上下文感知语言模型取得了进步,但这些模型仍然缺乏对环境和社会情境质量的整体理解。

因此,签约或评估口译服务的利益相关者(LSPs、机构、组织、认证实体)不能将其视为一个独立的解决方案,以一致和客观地衡量、检查或监控口译质量。

具体研究在范围、范围、语言覆盖和领域方面的显著局限性使研究结果和考虑因素很少普遍化。

此外,仅通过文本和抄写进行口译的分析不能解释口语的全部口头特征。最终用户在信息保留、可理解性和最终沟通有效性方面的感知也没有被考虑。

正如作者在论文末尾所指出的那样,“在这些指标可以用于生产之前,需要进行更多的研究。”

(机器翻译,轻度译后编辑,仅供参考。)

编辑:陈驭格

原文链接

Was it helpful ?

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注