Meta的AI之旅不可避免地进入了新兴的AI视频领域。现在,由马克·扎克伯格领导的Meta公司推出了Movie Gen,这是一款视频生成器,能够根据简短的文本提示生成一些逼真的视频。尽管目前只有Meta内部人员可以使用该生成器,Meta声称这对好莱坞和普通Instagram用户都有用。Movie Gen能够创建音频,这使其成为我们迄今见过的最强大的深度伪造生成器。
在一篇博客文章中,Meta展示了一些示例视频,其中一个视频是一个快乐的小河马在水下游泳,它似乎漂浮在水面下方,憋气显然没有问题。其他视频展示了穿着“维多利亚”时期服装的企鹅,衣袖和裙子过短,不符合那个时代的风格。还有一个视频展示了一位女性DJ在猎豹旁边打碟,她被节拍分散了注意力,根本顾不上自己目前的危险。
大家都在涉足AI生成的视频领域。今年早些时候,微软的VASA-1和OpenAI的Sora承诺通过简单的文本提示生成“逼真”的视频。尽管Sora在二月份就已被预告,但至今仍未面世。Meta的Movie Gen提供了比竞争对手更多的功能,包括通过文本提示编辑现有视频、基于图像创建视频以及为创建的视频添加AI生成的声音。
它的视频编辑套件显得尤为新颖,不仅适用于生成的视频,也适用于真实拍摄的视频。Meta声称其模型在给视频片段添加元素时“保留了原始内容”,包括背景和场景主角的服装。Meta展示了如何将人像照片插入生成的电影中。
这家社交媒体巨头已经拥有音乐和声音生成模型,它展示了一些13B参数音频生成器在视频上添加音效和配乐的例子。文本输入可以简单到“沙沙作响的树叶和折断的树枝”这样的表达,以添加到生成的蛇在森林地面蜿蜒而行的视频中。音频生成器目前限制在45秒,因此无法为整部电影配乐。至少现在还不能。
而且,很抱歉,你暂时还不能使用它。Meta的首席产品官克里斯·考克斯(Chris Cox)在Threads上写道:“我们还没有准备好将其作为产品发布——它仍然昂贵,生成时间过长。”
在讨论Movie Gen的白皮书中,Meta表示整个软件套件由多个基础模型组成。公司拥有的最大视频模型是一个30B参数的Transformer模型(Transformer模型是一种深度学习架构,自2017年推出以来,彻底改变了自然语言处理领域),最大上下文长度为73000个视频令牌。音频生成器是一个13B参数的基础模型,可以进行视频到音频和文本到音频的转换。
很难将其与最大AI公司的视频生成器进行比较,尤其是因为OpenAI声称Sora使用“称为补丁的数据,每个补丁都类似于GPT中的一个令牌”。Meta是少数仍在发布其新AI工具数据的大公司之一,这一做法在AI过度商业化的背景下已不常见。尽管如此,Meta的白皮书中并未详细说明Movie Gen的训练数据来源。很可能,部分数据集来自Facebook用户的视频。Meta还使用通过Meta Ray-Ban智能眼镜拍摄的照片来训练其AI模型。
我们暂时无法使用Movie Gen。相反,其他AI电影生成器,如RunwayML的Gen 3在付费之前可以提供有限数量的令牌来创建小片段。今年早些时候,404 Media的一份报告指出,Runway从数千个YouTube视频中训练其AI,像大多数AI初创公司一样,它在使用这些内容之前从未征得许可。
Meta表示,在创建此模型时,该公司与电影制片人和视频制作人密切合作,并将在开发Movie Gen时继续这样做。今年早些时候的报告显示,电影制片厂已经开始与AI公司合作。独立电影公司A24最近与专注于AI的风险投资公司合作,其中一些与OpenAI有关。另一方面,据报道,Meta正在与朱迪·丹奇(Judi Dench)和奥卡菲娜(Awkwafina)等好莱坞明星谈判在未来的AI项目中使用他们的声音。
(机器翻译,轻度译后编辑,仅供参考。)
编辑:李旭媛
审校:章坚