在 2024 年 5 月 17 日的 论文中来自布鲁诺-凯斯勒基金会的 Marco Gaido、Sara Papi、Matteo Negri、Mauro Cettolo 和 Luisa Bentivogli 介绍了一种新的自动字幕制作方法。 字幕 (AS),它消除了时间戳预测对中间文本的依赖。
研究人员解释说,字幕由具有相应时间长度的文本块组成,以确保与视频同步,从而增强观众的体验。 字幕自动制作涉及三项主要任务:翻译口语内容、分割翻译文本以及估算每个片段的时间戳。
早期的字幕制作系统采用级联结构,包括 自动语音识别 (自动语音识别(ASR)和 机器翻译 (MT),所有任务都严重依赖文本。 然而,这种方法有其局限性,如错误传播、丢失有用的前音信息、不适用于无书面形式的语言以及计算和环境成本增加。
针对这些局限性,最近的研究已转向无转录的翻译和分段解决方案,通过使用直接的 语音到文本 语音到文本翻译系统和调整 MT 和语言模型进行字幕分割。
研究人员表示,虽然翻译和字幕分割受到了关注,但直接生成时间戳的方法 “受到的关注要少得多”。 目前的方法仍然依赖于文本来估算时间戳,包括生成字幕、估算时间戳并将其投射到目标字幕上。
针对买家和 LSP 的专业指南,介绍如何利用视频内容的字幕和标题来增加观众人数和提高参与度。包括 10 个单页使用案例。
为此,他们提出了一种完全不需要中间转录本的模型,甚至不需要时间戳预测。 据研究人员称,这是 “首个完全端到端 AS 解决方案,可无缝生成字幕(即分段翻译)及其时间戳,而无需依赖中间转录本”。
研究人员提出了两种主要的时间戳估算方法:一种是使用联结时态分类(CTC)损耗直接将音频与翻译字幕对齐,另一种是使用注意力机制估算音频与字幕之间的时间对齐。 (CTC 是一种常用于语音识别的算法,用于处理输入和输出之间没有明确对齐信息的情况)。
除此之外,他们还引入了 SubSONAR,这是一个旨在评估时间戳质量的新指标。 他们解释说:”目前的指标在设计上是整体性的,因此不足以精确测量时间戳估计质量。
与其他指标不同的是,SubSONAR 对时间偏移特别敏感,因此能够对时间戳的准确性进行重点评估。
SOTA 结果
研究人员通过在两种数据条件下对七种语言对进行广泛的实验,并在四个不同的领域中使用自动和人工评估,验证了所提出模型的有效性。 新模型取得了 “最先进的成果”,在自动字幕方面优于现有的级联架构。
具体来说,人工评估表明,与以前的方法相比,时间戳调整的需求大幅减少了约 24%。 研究人员指出,人工评估是 “首次对字幕制作中的时间戳质量进行人工评估”。
他们的分析还显示,与其他方法相比,时间戳调整的需求不仅减少了,错误发生的频率也降低了,而且错误的严重程度也降低了。 “他们说:”我们的实验证明,我们提出的解决方案首次有效地缩小了级联和直接字幕系统之间的差距。
代码和预训练模型可在 GitHub以促进该领域的进一步研究和实际应用。
(机器翻译,轻度译后编辑,仅供参考)
编辑:刘煜珍