奇怪的牙齿泄露了微软最新人工智能视频生成器中的漏洞

其他推荐

活动预告 | 《人工智能赋能口译》新书发布暨读书会活动启动

2026年4月9日

精品课程 | 大语言模型赋能本地化项目实战工作坊报名开启

2026年2月3日

北京外国语大学2026年博士研究生招生简章

2026年2月3日

行业动态｜2025年语言服务40人论坛三号通知（更新）

2026年2月3日

详细议程 | 2025中国翻译协会翻译技术专业委员会年会即将举办

2026年2月3日

赋能未来 | 大模型赋能视听翻译实战工作坊

2026年2月3日

双十二特惠｜99元“外语+”技术年度会员，前100位报名即赠AIPE最新教材

2026年2月3日

行业动态 | 速看！谷歌发布开源医学语音转文本模型MedASR

2026年2月3日

行业洞见 | 速看！语言类就业市场如何？看看点击量名列前茅的职位有哪些

2026年2月3日

资源干货 |《如何增强语言技能》：AI时代，翻译教育的增强之道

2026年2月3日

微软的研究人员本周发表了一篇关于VASA-1的论文，VASA-1是一个新的人工智能工具，它可以用一张静态的图像生成一段令人信以为真的视频。微软没有立即向公众发布此项新工具的计划，但VASA-1令人印象深刻。如果不仔细看牙齿的话，的确令人印象深刻。看看那些吃东西的人就明白了。

VASA-1模型的工作原理是使用人脸的任何静态照片——或者，在由Microsoft发布的示例中，使用一张由人工智能生成的、实际上并不存在的人脸的照片，再加上音频文件，之后可以产生一个包括面部细微差别和自然动作的同步的视频。

同样，这一切都令人印象深刻，正如我们在微软提供的视频中看到的那样。但是VASA-1似乎仍需努力的一个地方是牙齿的呈现方式。如果仔细看牙齿，可以发现，它们像卡通里的一样，不太符合其他一切超现实的表现方式。

放慢整个过程的速度后，可以发现，视频中奇怪的牙齿会变得更加明显。（如果想想视频中的这个人实际上并不存在，那么挑剔这个人的外表可能会让你感觉没有那么不适。）

微软提供的另一个示例视频中，尽管其他看起来非常逼真，但仍然可以看出牙齿类似卡通般的样子，尤其是考虑到这段视频的唯一的源材料是静态图像和音频文件。

不管出于什么原因，视频中男性的牙齿稍微不太明显，可能是因为模型没有显示男性说话时张大嘴巴的样子。但是仔细观察仍然可以感觉到这里有些不太对劲。

研究人员注意到的一件更有趣的事情是，微软的模型可以非常快速地产生相对高质量的视频，据报道这是其他人工智能生成器像OpenAI的Sora所不能做到的。事实上，这篇论文指出，在一台装有NVIDIARTX 4090 GPU的台式电脑上，延迟仅为0.17秒.

这种速度可以为各种应用如实时翻译服务提供即时视频。

“我们的方法不仅提供具有逼真面部和头部动态的高视频质量，而且支持以高达40 FPS的速度在线生成512×512视频，启动延迟可以忽略不计。这为模拟人类对话行为的逼真化身的实时互动指明了道路，”这份论文中写道。

研究人员清楚地意识到这种技术的危险，这也许解释了为什么微软还没有宣布向公众推出该技术的计划。然而，研究人员也确定了他们认为对人类有用的用例。

“对人类有用的用例包括提高教育公平性、改善有沟通障碍的个人的可及性、为有需要的人提供陪伴或治疗支持等，这些好处突出了我们的研究和其他相关探索的重要性。我们致力于负责任地开发人工智能，目标是促进人类福祉，”该论文写道。

“在这种情况下，在我们确定该技术将按照适当的法规负责任地使用之前，我们没有计划发布在线演示、API、产品、附加实现细节或任何相关产品。”

这可能是个好主意，因为可能会有人这种技术进行诈骗。毕竟，距离2024年美国总统大选只有7个月了。而且，法西斯主义在全球的威胁不会很快消失。人类现在真的觉得我们对人工智能生成的虚假信息无能为力。在互联网上的几乎所有东西都变得虚假之前，像微软这样的大公司也许应该尽其所能限制潜在的危害。

原文链接

（机器翻译，轻度译后编辑，仅供参考。）

编辑：李旭媛

Was it helpful ?

还有问题？我们能帮忙吗？