分享
AI视频生成(上) | 技术发展概况和应用场景思考
输入“/”快速插入内容
AI视频生成(上) | 技术发展概况和应用场景思考
用户4392
用户4392
2024年10月9日修改
本文作者Bay,写于23.09月底,关注公众号“Bay的设计奥德赛”可接受及时推送
AI生成视频发展到什么程度了,效果如何?有哪些可用的产品方案?网上炫酷的效果如何实现?AI视频的应用场景和案例有哪些?
本着对以上问题的探索,我开启了AI视频系列的探索。上篇将着重介绍技术发展概况和应用场景思考。
一.技术发展概况
长期以来,人们对AI视频技术应用的认知停留在各种“换脸”和视频特效上。随着AI图像领域的技术发展,AI视频技术也逐渐取得了突破。本节内容结合Claude、Perplexity查询、项目论文整理而成。
1.1 生成方法
从交互方式来看,当前AI视频生成主要可分为
文本生成视频、图片生成视频、视频生成视频
三种形式。
一些视频生成方法是先生成静态关键帧图像,然后构建为视频序列。也存在直接端到端生成视频的技术,无需进行多阶段处理即可生成视频,如基于GAN、VAE、Transformer的方法。
微软NUWA-XL:通过逐步生成视频关键帧,形成视频的“粗略”故事情节,然后通过局部扩散模型(Local Diffusion)递归地填充附近帧之间的内容
1.2 关键帧 + 补间技术方式间的差异
代表产品:Deforum、AnimateDiff、Rerender a Video
(1)关键帧生成方式很多,主要通过各种AI生成图片的方式解决,最主流的方式是Stable Diffusion,可最大程度的保证不同帧风格一致,在下文中会详细介绍实操案例。
(2)补帧算法:主要用于平滑关键帧之间的动作和细节。
•
光流补帧:
通过计算两帧图像之间每个像素的运动向量,根据光流场生成中间帧。优点是计算量较小,速度快。代表产品是EbSynth。
•
基于姿态补帧:
利用人体关键点检测计算姿态信息(关节位置、角度等信息),进行中间帧图像合成。适合为具有复杂运动的复杂对象或角色制作动画。
•
重参考补帧:
使用相邻的后向和前向帧作为参考,通过双向帧信息进行像素级补帧。
(3)完善策略: 进一步提升生成视频的整体质量和连贯性,协同补帧算法,弥补关键帧生成可能存在的各类缺陷。不同模型使用的方法有所差异。
•
渐进补帧:通过迭代多次补帧完善视频质量,逐步提升分辨率和连贯性。
•
递归框架:递归完善每一帧,直到达到质量要求。
•
增强后处理:使用图像增强 GAN 等技术,对生成的视频进行修复和提升,特别提升存在模糊、残影等问题的区域,增强整体质量。
•
对比学习:指学习和对比真实高质量视频数据,从中提取提升生成视频细节的模式。
•
模糊处理:使用滤波、平滑等算法处理生成视频,减少帧间的不连贯引起的毛刺和锯齿问题,增强视觉流畅性。
•
融合多个模型:不同模型生成相同视频,进行模型融合。
1.3 端到端视频生成的技术差异
代表产品:Runway
GAN
生成对抗网络:
是一种无监督的生成模型框架,通过让两个神经网络相互博弈来进行机器学习。可以生成视觉逼真度高的视频,但控制难度大、时序建模较弱。
VAE变分自编码器:
它是一种可以学习数据分布的网络结构。就像把视频文件压缩成较小的文件再解压一样,它可以重建视频数据。VAE可以根据条件输入控制生成过程,但质量较GAN略低。
GAN、VAE生成视频速度快,缺点是生成质量和分辨率较低,长度短,控制能力弱。
Transformer自注意力机制:
通过学习视频帧之间的关系,理解视频的长期时间变化和动作过程,这种方式对长视频建模更好,时序建模能力强,可实现细粒度语义控制,缺点是计算量大