Meta的AI视频生成器Movie Gen能够制作包含音乐的真正电影

Meta的AI之旅不可避免地进入了新兴的AI视频领域。现在，由马克·扎克伯格领导的Meta公司推出了Movie Gen，这是一款视频生成器，能够根据简短的文本提示生成一些逼真的视频。尽管目前只有Meta内部人员可以使用该生成器，Meta声称这对好莱坞和普通Instagram用户都有用。Movie Gen能够创建音频，这使其成为我们迄今见过的最强大的深度伪造生成器。

在一篇博客文章中，Meta展示了一些示例视频，其中一个视频是一个快乐的小河马在水下游泳，它似乎漂浮在水面下方，憋气显然没有问题。其他视频展示了穿着“维多利亚”时期服装的企鹅，衣袖和裙子过短，不符合那个时代的风格。还有一个视频展示了一位女性DJ在猎豹旁边打碟，她被节拍分散了注意力，根本顾不上自己目前的危险。

大家都在涉足AI生成的视频领域。今年早些时候，微软的VASA-1和OpenAI的Sora承诺通过简单的文本提示生成“逼真”的视频。尽管Sora在二月份就已被预告，但至今仍未面世。Meta的Movie Gen提供了比竞争对手更多的功能，包括通过文本提示编辑现有视频、基于图像创建视频以及为创建的视频添加AI生成的声音。

它的视频编辑套件显得尤为新颖，不仅适用于生成的视频，也适用于真实拍摄的视频。Meta声称其模型在给视频片段添加元素时“保留了原始内容”，包括背景和场景主角的服装。Meta展示了如何将人像照片插入生成的电影中。

这家社交媒体巨头已经拥有音乐和声音生成模型，它展示了一些13B参数音频生成器在视频上添加音效和配乐的例子。文本输入可以简单到“沙沙作响的树叶和折断的树枝”这样的表达，以添加到生成的蛇在森林地面蜿蜒而行的视频中。音频生成器目前限制在45秒，因此无法为整部电影配乐。至少现在还不能。

而且，很抱歉，你暂时还不能使用它。Meta的首席产品官克里斯·考克斯（Chris Cox）在Threads上写道：“我们还没有准备好将其作为产品发布——它仍然昂贵，生成时间过长。”

在讨论Movie Gen的白皮书中，Meta表示整个软件套件由多个基础模型组成。公司拥有的最大视频模型是一个30B参数的Transformer模型（Transformer模型是一种深度学习架构，自2017年推出以来，彻底改变了自然语言处理领域），最大上下文长度为73000个视频令牌。音频生成器是一个13B参数的基础模型，可以进行视频到音频和文本到音频的转换。

很难将其与最大AI公司的视频生成器进行比较，尤其是因为OpenAI声称Sora使用“称为补丁的数据，每个补丁都类似于GPT中的一个令牌”。Meta是少数仍在发布其新AI工具数据的大公司之一，这一做法在AI过度商业化的背景下已不常见。尽管如此，Meta的白皮书中并未详细说明Movie Gen的训练数据来源。很可能，部分数据集来自Facebook用户的视频。Meta还使用通过Meta Ray-Ban智能眼镜拍摄的照片来训练其AI模型。

我们暂时无法使用Movie Gen。相反，其他AI电影生成器，如RunwayML的Gen 3在付费之前可以提供有限数量的令牌来创建小片段。今年早些时候，404 Media的一份报告指出，Runway从数千个YouTube视频中训练其AI，像大多数AI初创公司一样，它在使用这些内容之前从未征得许可。

Meta表示，在创建此模型时，该公司与电影制片人和视频制作人密切合作，并将在开发Movie Gen时继续这样做。今年早些时候的报告显示，电影制片厂已经开始与AI公司合作。独立电影公司A24最近与专注于AI的风险投资公司合作，其中一些与OpenAI有关。另一方面，据报道，Meta正在与朱迪·丹奇（Judi Dench）和奥卡菲娜（Awkwafina）等好莱坞明星谈判在未来的AI项目中使用他们的声音。

原文链接

（机器翻译，轻度译后编辑，仅供参考。）

编辑：李旭媛

审校：章坚

Was it helpful ?

还有问题？我们能帮忙吗？