视频和其他种类的媒体形式正日益成为同广大受众交互的首选方式。如今,谁还会时刻把说明书拿在手上?如果需要学习一件新东西,去视频网站上搜索一下就知道如何操作了,视频不仅会告诉你怎么做,还能直接展示操作过程。
当然,笔者非常幸运,我的母语就是英语。有超过一半的网络内容用的都是英语,我可以畅览整个世界。但是,对于非英语人士而言,过程就没有这么轻而易举了。尽管当下的大多数浏览器都具有内置的翻译功能,支持以其他语言显示文本内容,但是视频却仍很难做到,这当然也包括上述的教学类视频。
那为什么内容创作者不对其内容进行当地语言的翻译呢?这样无论是对希望获得曝光度并推广个人 IP 或者品牌,还是对于那些获得更多信息就会消费更多内容的用户来说,都是有利的。答案其实也很简单——这样做的成本太高了。
那么,为何成本如此高昂呢?
1 |
视频内容的翻译是一个复杂的过程。为此,人们开发了一些专门的应用程序,例如我们的合作伙伴CaptionHub构建了专业的字幕处理工具,可以协助专业人员完成这项工作。 |
2 |
翻译字幕有较大的难度。文本长度需要被限制,从而确保其与视频内容相匹配。由于节奏上的停顿或是场景变化,有些句子可能会被截断等等。这也是为什么这项工作通常需要由专业人员来处理的原因。 |
3 |
自动翻译无法很好地处理句段。另一方面,字幕必须同视频的画面内容匹配,因此有时需要将一句话截成多个语段。 |
3 |
单靠字幕并不能让所有用户了解视频内容。比如对于有听力障碍的特别用户,还需要提供相应的无障碍字幕,从而帮助那些无法收听音频的观众也能了解视频内容。 |
3 |
需要花费大量时间来保证翻译的质量。需要通过反复观看、收听和阅读,如此不断循环,来检查各种语言翻译下的整段视频。 |
3 |
时间线需要精确到毫秒。因为即使字幕与实际讲话稍有偏差,观众也会马上注意到。 |
当今世界,无论您身处何地,都会听到人们在讨论AI的强大能力。它可以帮助学者完成论文,可以帮助司机驾驶车辆,当然也能让世界各地的人都可以观看并理解发布者的视频。
我们已经可以利用AI来为创作的视频内容生成字幕,一些通用的大型语言模型 (LLM) 就可以很好地完成此项工作。只是请注意,这些模型大多是向全用户公开的,因此在向其发送内容时务必要谨慎。具体到实际案例中,对于类似物品使用教程这类的非机密性的视频来说,这显然是一件提升传播力的好事。
实际上,LLM和字幕也不都是完美的。多数的LLM都没法正确输出品牌名称,或是其他专有名词,这一点是否至关重要,需考虑具体情况。对于创作者们而言,不论是精心制作的产品营销视频,还是面向人力资源或法务部门的专业类视频,都不希望在特定名词的输出上出现歧义,因此有必要请专业人员来处理这些信息。而对于一些日常内容的视频场景来说,使用自动生产字幕的效果就可能足够令人满意。
字幕的内容已经有了,那么字幕的展示呢?使用网络上那些免费提供的机译软件可能不是很好的选择。这么做可能不仅会弄乱字幕格式,而且也无法保证得到最准确的结果。比如在原始视频中可能有戏剧性停顿,在视觉和听觉上都会让视频有更好的效果,那么软件就需要翻译两个只有一半内容的句子,而不是一次性译出一个完整的句子。
针对上述情况,如果使AI做得更好?首先,要确保LLM理解所输入的内容。举个例子,看书用的眼镜和喝酒用的杯子是不一样的东西,虽然两者的英语是一样的,需要确保 AI 理解这一点。显然,我们无法训练公共的机翻软件学会结合语境翻译内容,但LLM却可以实现这一点,它可以通读字幕文件对其内容进行总结再输出。
但是 AI 有时会擅自添加一些过于夸张的描述。当然这点也是可以解决的,当总结完全篇的内容后,我们可以进一步指导LLM去使用上下文限制的语料库,从而仅使用来自该上下文的内容去翻译字幕。
除此之外,AI 还有提供无障碍字幕的功能。我们希望每个人都能平等地接触和理解创作者所产出的内容,比如拧紧螺丝时会发出的声音。我们想确保有听力障碍的人也能同样程度的理解视频,对此,LLM可以实现提取带有时间戳的声音内容。
我知道,目前以上这些听起来可能过于美好,令人难以置信,但如果您想了解我们是如何在实际场景中实现它的,您可以观看今年ELEVATE的专题演讲录像,在字幕设置中有众多语言可供选择。
皇后乐队有一句歌词,非常准确地描述了这种情况。“我想要一切,现在就想要!”有一种方法可以将所有这些内容整合起来并自动提供各种语言的翻译内容,而不再需要内容创作者耗费大量时间和精力去手动操作,这就是我们的目标。我们希望帮助您了解这种最佳的方法,从而充分实现这些令人惊叹的新可能性。
创作,无所不译——甚至是视频!
特别说明:本文仅用于学术交流,如有侵权请后台联系小编删除。
– END –
转载来源:Trados
转载编辑:柴璐璐