AI视频生成(上) | 技术发展概况和应用场景思考

用户4392

2024年10月9日修改

本文作者Bay，写于23.09月底，关注公众号“Bay的设计奥德赛”可接受及时推送​

AI生成视频发展到什么程度了，效果如何？有哪些可用的产品方案？网上炫酷的效果如何实现？AI视频的应用场景和案例有哪些？​

本着对以上问题的探索，我开启了AI视频系列的探索。上篇将着重介绍技术发展概况和应用场景思考。​

一.技术发展概况

长期以来,人们对AI视频技术应用的认知停留在各种“换脸”和视频特效上。随着AI图像领域的技术发展，AI视频技术也逐渐取得了突破。本节内容结合Claude、Perplexity查询、项目论文整理而成。​

1.1 生成方法

从交互方式来看，当前AI视频生成主要可分为文本生成视频、图片生成视频、视频生成视频三种形式。​

一些视频生成方法是先生成静态关键帧图像,然后构建为视频序列。也存在直接端到端生成视频的技术，无需进行多阶段处理即可生成视频，如基于GAN、VAE、Transformer的方法。​

微软NUWA-XL：通过逐步生成视频关键帧，形成视频的“粗略”故事情节，然后通过局部扩散模型（Local Diffusion）递归地填充附近帧之间的内容​

1.2 关键帧 + 补间技术方式间的差异

代表产品：Deforum、AnimateDiff、Rerender a Video

（1）关键帧生成方式很多，主要通过各种AI生成图片的方式解决，最主流的方式是Stable Diffusion，可最大程度的保证不同帧风格一致,在下文中会详细介绍实操案例。​

（2）补帧算法:主要用于平滑关键帧之间的动作和细节。

•
光流补帧：通过计算两帧图像之间每个像素的运动向量,根据光流场生成中间帧。优点是计算量较小,速度快。代表产品是EbSynth。​

•
基于姿态补帧：利用人体关键点检测计算姿态信息（关节位置、角度等信息）,进行中间帧图像合成。适合为具有复杂运动的复杂对象或角色制作动画。​

•
重参考补帧：使用相邻的后向和前向帧作为参考,通过双向帧信息进行像素级补帧。​

（3）完善策略: 进一步提升生成视频的整体质量和连贯性，协同补帧算法,弥补关键帧生成可能存在的各类缺陷。不同模型使用的方法有所差异。​

•
渐进补帧:通过迭代多次补帧完善视频质量,逐步提升分辨率和连贯性。​

•
递归框架:递归完善每一帧,直到达到质量要求。​

•
增强后处理:使用图像增强 GAN 等技术,对生成的视频进行修复和提升,特别提升存在模糊、残影等问题的区域,增强整体质量。​

•
对比学习:指学习和对比真实高质量视频数据,从中提取提升生成视频细节的模式。​

•
模糊处理：使用滤波、平滑等算法处理生成视频,减少帧间的不连贯引起的毛刺和锯齿问题,增强视觉流畅性。​

•
融合多个模型:不同模型生成相同视频,进行模型融合。​

1.3 端到端视频生成的技术差异

代表产品：Runway

GAN 生成对抗网络:

是一种无监督的生成模型框架,通过让两个神经网络相互博弈来进行机器学习。可以生成视觉逼真度高的视频,但控制难度大、时序建模较弱。​

VAE变分自编码器:

它是一种可以学习数据分布的网络结构。就像把视频文件压缩成较小的文件再解压一样,它可以重建视频数据。VAE可以根据条件输入控制生成过程，但质量较GAN略低。​

GAN、VAE生成视频速度快，缺点是生成质量和分辨率较低，长度短，控制能力弱。​

Transformer自注意力机制:

通过学习视频帧之间的关系,理解视频的长期时间变化和动作过程,这种方式对长视频建模更好，时序建模能力强,可实现细粒度语义控制,缺点是计算量大​

AI视频生成(上) | 技术发展概况和应用场景思考​