众力资讯网

【一分钟720p精准运镜视频,SANA-WM世界模型究竟有多强】 快速阅读:S

【一分钟720p精准运镜视频,SANA-WM世界模型究竟有多强】

快速阅读:SANA-WM 是一种能生成一分钟长、具备相机控制能力的视频世界模型。它在技术上实现了极高的效率,但引发了关于“世界模型”是否能真正承载人类设计意图,以及是否会制造大量“视觉糖果”式垃圾内容的深度争论。

最近看到的 SANA-WM 确实让人印象深刻,它能用单张 GPU 在短时间内生成一分钟长、720p 分辨率且带有精确相机轨迹的视频。这种效率提升简直像是在用微波炉取代烤箱,虽然快,但大家心里都在打鼓。

有观点认为,这种“世界模型”本质上是在模拟物理世界的连贯性,这对于机器人训练极其重要。如果机器人能在这种生成的模拟器里进行“梦境”演练,学习如何应对物理反馈,那意义非凡。

但换个角度看,这种技术正把我们推向一个“意图缺失”的时代。

玩过 FromSoftware 游戏的人都知道,那种世界是有灵魂的。每一件掉落在地上的道具、每一处建筑的倾斜,都是开发者刻意为之,为了传达某种叙事或引导某种情绪。而 AI 生成的世界,目前看起来更像是一个空洞的、完美的“liminal space”。它看起来很真实,但里面什么都没有。它只有视觉上的连贯,没有逻辑上的深度。

这种现象让我想起现在的互联网内容:大量的、看起来很高级的“视觉垃圾”。AI 降低了创作门槛,但也让“平庸”大规模量产。如果一个人不需要学习如何做决策、如何理解空间逻辑,只是通过指令来“委派”任务,那他究竟是在创作,还是仅仅在充当一个高级实习生?

这种“微波炉式”的创作,可能会让平均水平的体验变差,但也许会催生出更稀缺、更有生命力的手工艺品。

现在的世界模型,究竟是在构建通往无限可能的门,还是在为一个充满噪音、毫无意义的视觉海洋铺路?

nvlabs.github.io/Sana/WM/