微软的研究人员本周发表了一篇关于VASA-1的论文,VASA-1是一个新的人工智能工具,它可以用一张静态的图像生成一段令人信以为真的视频。微软没有立即向公众发布此项新工具的计划,但VASA-1令人印象深刻。如果不仔细看牙齿的话,的确令人印象深刻。看看那些吃东西的人就明白了。
VASA-1模型的工作原理是使用人脸的任何静态照片——或者,在由Microsoft发布的示例中,使用一张由人工智能生成的、实际上并不存在的人脸的照片,再加上音频文件,之后可以产生一个包括面部细微差别和自然动作的同步的视频。
同样,这一切都令人印象深刻,正如我们在微软提供的视频中看到的那样。但是VASA-1似乎仍需努力的一个地方是牙齿的呈现方式。如果仔细看牙齿,可以发现,它们像卡通里的一样,不太符合其他一切超现实的表现方式。
放慢整个过程的速度后,可以发现,视频中奇怪的牙齿会变得更加明显。(如果想想视频中的这个人实际上并不存在,那么挑剔这个人的外表可能会让你感觉没有那么不适。)
微软提供的另一个示例视频中,尽管其他看起来非常逼真,但仍然可以看出牙齿类似卡通般的样子,尤其是考虑到这段视频的唯一的源材料是静态图像和音频文件。
不管出于什么原因,视频中男性的牙齿稍微不太明显,可能是因为模型没有显示男性说话时张大嘴巴的样子。但是仔细观察仍然可以感觉到这里有些不太对劲。
研究人员注意到的一件更有趣的事情是,微软的模型可以非常快速地产生相对高质量的视频,据报道这是其他人工智能生成器像OpenAI的Sora所不能做到的。事实上,这篇论文指出,在一台装有NVIDIARTX 4090 GPU的台式电脑上,延迟仅为0.17秒.
这种速度可以为各种应用如实时翻译服务提供即时视频。
“我们的方法不仅提供具有逼真面部和头部动态的高视频质量,而且支持以高达40 FPS的速度在线生成512×512视频,启动延迟可以忽略不计。这为模拟人类对话行为的逼真化身的实时互动指明了道路,”这份论文中写道。
研究人员清楚地意识到这种技术的危险,这也许解释了为什么微软还没有宣布向公众推出该技术的计划。然而,研究人员也确定了他们认为对人类有用的用例。
“对人类有用的用例包括提高教育公平性、改善有沟通障碍的个人的可及性、为有需要的人提供陪伴或治疗支持等,这些好处突出了我们的研究和其他相关探索的重要性。我们致力于负责任地开发人工智能,目标是促进人类福祉,”该论文写道。
“在这种情况下,在我们确定该技术将按照适当的法规负责任地使用之前,我们没有计划发布在线演示、API、产品、附加实现细节或任何相关产品。”
这可能是个好主意,因为可能会有人这种技术进行诈骗。毕竟,距离2024年美国总统大选只有7个月了。而且,法西斯主义在全球的威胁不会很快消失。人类现在真的觉得我们对人工智能生成的虚假信息无能为力。在互联网上的几乎所有东西都变得虚假之前,像微软这样的大公司也许应该尽其所能限制潜在的危害。
(机器翻译,轻度译后编辑,仅供参考。)
编辑:李旭媛