在2024年1月10日发表的一篇论文中,伯克利分校的研究人员Kevin Cai、Chonghua Liu和David M. Chan介绍了Anim-400K数据集,这是一个用于自动配音研究和开发的全面资源。
Anim-400K是一个大规模数据集,包含了英语和日语的对齐音视频片段。它包括超过42.5万个对齐的片段,总计763小时,来自于超过190个主题和流派的作品。
Anim-400K还附带了元数据,提供了不同层次的信息,如作品、剧集和片段。这些元数据包括流派、主题、节目评分、角色简介、动画风格、剧集梗概、评分和字幕等细节。
由于其丰富的元数据,Anim-400K不仅可以支持自动配音,还可以促进其他任务,包括视频摘要、角色识别与描述、流派/主题/风格分类、视频质量分析和同步翻译。
对新数据集的需求
尽管在自动字幕领域取得了进展,通过自动语音识别(ASR)和机器翻译(MT)的进步,但配音翻译仍然处于自动化曲线的相对早期阶段。
目前依赖于复杂流水线(结合ASR、MT和文本到语音TTS系统)的自动配音系统,缺乏有效配音所需的微妙复杂性,如精确的时序、面部运动同步和韵律匹配。
虽然端到端的配音是一种潜在的解决方案,但缺乏数据阻碍了其发展,限制了端到端配音模型的质量。作者指出,Heroes语料库是训练/测试数据的主要来源,但其规模(7K个样本)不足以训练深度神经网络。
相反,研究人员通常转向私人收集的数据集,或选择同时翻译(ST)数据集,如MuST-C和MuST-Cinema。然而,这些ST数据集虽然在源音频方面丰富,但缺乏评估关键质量(如韵律、嘴唇匹配、时序和口译)的元素。
作者表示:“很明显,需要一个新的大规模数据集来填补ST数据集和高质量手动对齐数据集(如Heroes和IWSLT语料库)之间的训练差距。”
对于基于拉丁语的数据集的强有力补充
为了填补这一差距,他们引入了Anim-400K,“一个包含真实配音音频分布的大规模完全对齐的数据集”。
作者表示:“Anim-400K是一个相对大型的非拉丁语言数据集,使其成为任何拉丁语言数据集的强有力补充。”
Anim-400K的数据来源于从热门的动漫观看网站上爬取公开可用的配音动画视频。该数据集包括带有日语和英语音轨的原始剧集,同时为日语音轨提供了英文字幕。与之前依赖自底向上方法的方法不同,提取对齐片段采用了自顶向下的方法,以确保更好的对齐,并捕捉独特的表演内容。
正如作者所解释的,自底向上的方法涉及使用电影剧本和字幕等资源分析个别单词和片段。尽管这种方法基于可用的文本信息对齐片段,但它可能无法确保完全的对齐,片段可能与音频匹配良好,但可能无法完全同步。
相反,自顶向下的方法从较高层次开始,确保始终对齐所有片段,即使存在噪音(ASR噪音、说话者噪音)也是如此。这种方法的额外好处(或缺点)是使模型能够捕捉在文本中找不到的独特表演内容,包括非语音表达。
作者总结说,Anim-400K“在提高可访问性和参与度方面具有巨大的潜力。”该数据集可供研究目的在GitHub上公开获取。
(机器翻译,轻度译后编辑,仅供参考。)
编辑:刘煜珍