在一篇 为 论文 欧洲机器翻译协会(EAMT)2024 年会议 (口译技术研究人员 王晓曼 (利兹大学)和 Claudio Fantinuoli (美因茨大学和 工藤) 发现提示 开放式人工智能的 GPT-3.5 来评估翻译语音的质量,与人类的评估结果相近。
研究探讨了人类同声传译和人工智能语音翻译的自动化指标与专家评价之间的相关性,并提出了大语言模型 (LLM)在各种评估方法中都与人类得分呈正相关。
测量 解释 借助人工智能(AI人工智能)可能会对专业口译员、口译培训员和学生以及机器 语音翻译 作为提高绩效的工具。
评估同声传译的质量是一项复杂的任务。 这是由于实时多语言交流中存在着多层次的细微差别。 此外,口译员还经常采用非线性策略,如重述、改编和扩展。 这些策略有助于以适合语境的方式传递信息。
尽管如此,对质量评估的解释仍能为从业人员、教育工作者和受训人员,以及学者、认证机构,甚至客户和最终用户提供有价值的见解。
然而,与任何人工评估一样,质量评估也需要耗费大量时间和资源,因此只能在有限的情况下进行。
两位研究人员开展了一项初步研究,以调查同声传译自动评估指标的可靠性。 他们测量了自动评估结果与专家评估结果之间的联系。 这些评估侧重于一个单一的特征:从一种语言到另一种语言的意义转换的准确性。
口译 由三名专家口译员和一个语音翻译引擎(Kudo’s AI Speech Translation,其制作由 Fantinuoli 本人负责)提供的口译进行了测试。
人工智能与人工评估相媲美
研究人员首先使用了一个由 18 名专业口译员和双语人士组成的团队,对转录内容进行人工评分。 转录 将 12 篇真实演讲的英语译成西班牙语的人工和机器译文。
人工评估被作为与自动评估指标进行比较的基准。 评测人员只重点测量两种语言所提供信息的忠实度。 口译和口语的所有其他特点都没有考虑在内。
虽然评价人员不知道他们所评价的录音是由人工还是机器录制的,但他们之间的评分一致性波动很大,而且普遍较低。
这证明了衡量口译活动的复杂性,以及在确定什么是好的语音转录时所涉及的主观程度。
研究人员随后考虑了各种自动度量方法,以计算转录的源演讲稿和目标演讲稿之间的语义相似性(即概念的对应关系)。
在这些方法中,Wang 和 Fantinuoli 研究了 LLM(即 OpenAI 的 GPT-3.5)在此类任务中的表现。
他们发现,在直接提示时(”给出英语和西班牙语的两个句子,请从 1 到 5 评价它们的相似度,其中 1 表示不相似,5 表示非常相似”),GPT-3.5 与人类的判断具有很高的相关性,这得益于其较大的上下文窗口。
研究数据集可在 GitHub,还可以通过易于阅读的 电子表格 和 PDF 格式。
口译员和本地服务提供商的应用
整合人工智能质量评估可为口译提供新的资源和视角。
口译员可以将人工智能反馈应用于口译的各个方面,以实现持续的专业发展。 如果能实时提供这些见解,口译员甚至可以进行即时调整,提高他们的整体表现。
同样,口译培训人员和学生也可以利用自动质量评估作为额外资源,在课堂上进一步阐述口译流程。
语音翻译系统的设计者也可以利用自动评估简化对自身技术的评估,从而加快开发周期。
不过,在现阶段,该机制仍只能提供近似和受限的估算能力。 因此,所有审查和评估过程都应在专家指导下进行,以弥补全自动方法的不足。
尽管在语境感知语言模型方面取得了进步,但这些模型仍然缺乏对内部设定和社会环境质量的整体理解。
因此,签约或评估口译服务的利益相关方(LSPs长期服务提供者因此,口译质量评估(LSP、机构、组织、认证实体)不能被视为一种独立的解决方案,无法对口译质量进行一致、客观的衡量、审查或监控。
这项具体研究在范围、幅度、语言覆盖面和领域方面存在明显的局限性,因此研究结果和考虑因素的普遍性很低。
此外,仅通过文本和转录对口译进行分析也无法解释口语的全部口语特征。 最终用户在信息保留、可理解性以及最终交际效果方面的感知也没有考虑在内。
正如作者自己在文章末尾所指出的,”在生产中使用这些指标之前,还需要进行更多的研究”。
(机器翻译,轻度译后编辑,仅供参考)
编辑:刘煜珍