众力资讯网

AI生成视频的技术原理:从GAN图像生成,到扩散模型,再到DiT最近Seedan

AI生成视频的技术原理:从GAN图像生成,到扩散模型,再到DiT

最近Seedance2.0引爆了AI视频生成,比Sora2明显强,应该是中国AI效果明显领先外国的第一个大爆点。个人感觉Seedance2.0是最终效果做得很好了,基础算法应该还是和主流AI视频模型一样,基于DiT。但是,要做出好效果,需要组合嵌入非常多算法细节,开发难度非常高。

DiT就是Diffusion Transformer,基于Transformer的扩散模型,2022年末出现。DiT最初是用来生成图像,自然扩展到视频。再以前(2022年8月)是开源的Stable Diffusion和闭源的Midjourney生成图像,也出名过一阵子,但不是用Transformer,用的是落后的U-Net。图为一个人用Midjourney生成的画去参赛得了大奖引发争议,2022年9月我介绍了,当时是说会颠覆画师工作,AIGC能赚钱了。

2022年其实我是先注意到了AI生成图像很有意思,还有GPT2和GPT3生成语言也有点意思,觉得AI又要来一波大的,那时流行的概念是AIGC,图像看点还更多,不少创业公司都是瞄着图像这个方向。大家没想到大语言模型这么厉害,全面超过普通人的智能,AIGC反而成了一个分支,智能的作用远大于AI生成内容。

AI算法发展非常快,以月计。Stable Diffusion之前是2020年的DDPM,到2021年DDIM,到2022年4月发展到DALL-E。这些算是一个系列的,都是用U-Net,有算法优化加速,单显卡生成一张图片从数小时进步到数秒,加上英伟达显卡的进步。还有生成图片大小有些进步。2022年之前确实玩的就是不大的一张图,512*512之类的,一看就是AI生成的。

从DDPM到Stable Diffusion再到DiT,都是基于同样一个原始想法:教会AI如何把一张完全模糊的纯噪声图,将它一步步变清晰,它就学会了画图。这就是扩散模型,让噪音在好图上扩散成完全模糊,反向就是生成好图。这个主意确实有些疯,不容易想到。

之前我更理解2014年提出的GAN(对抗生成网络)生成图片的算法,感觉更为正统,图像生成算法全是GAN。一个生成器不停生成图片,判别器给它打分,开始生成得差,很容易就说是假的,两者互相对抗学习改进神经网络系数,就都做得越来越好,最后就生成了让人真假难辨的图片。训练好了后,生成图片也快。如学了一些梵高的画,就能画出一堆类似风格的图。但实践说明,正统的GAN路线被疯狂的扩散模型打败了。

GAN的问题是,它很难“文生图”,只是模仿一堆图生成图。而模仿的结果会很偏向,满足了打分器就一直生成这类图,看着能生图,但风格单一。而且GAN训练容易崩,生成器与判别器强弱不匹配就崩了,生成得乱七八糟的,图大了更容易崩。

扩散模型的想法是,从混沌中不断微调(如1000步)加入秩序,最后就重建秩序,画图成功。这个单步任务反而是容易的,如某步只是把模糊度95%变为94%,神经网络能学到怎么办。相应的动作是,把海量好图逐渐变模糊,生成许多反向传播学习样本。这个机制的好处是,训练样本容易准备,可以搞非常多,概率分布很完善,如何稳妥修正、覆盖多种选择,模型必须学会所有可能的去噪路径,神经网络能学得不错。GAN是两个网络对抗,概率分布很不稳定。

扩散模型相比GAN的缺点是慢,但这正是GPU加速优化、算法优化拿手的。很快就通过VAE之类的办法,缩小了算法空间,如1024*1024的大图,抽象成64*64的。而U-net视野狭窄的缺点,换成能并行快速计算、长距离建立关联的Tranformer,效果更好了。

而从图像到视频,就是数据组织不一样,切块理解后,本质差不多。视频要求更高,就有很多数据关联逻辑性要求高,这些都需要加模块补,细节要求多得多,开发难度高。

评论列表

大神父王喇嘛
大神父王喇嘛 2
2026-02-15 15:03
最早是VAE