为什么说2023年是AI视频的突破年？以及2024年的展望

翻译：歸藏

2023 年是人工智能视频领域的飞跃之年。年初，市场上还没有面向公众的文本生成视频的模型。但仅仅一年时间，我们就见证了数十种视频生成工具的问世，全球已有数百万用户通过文字或图像提示来制作短视频。​

目前这些工具还有局限性 — 大部分只能生成 3 到 4 秒的视频，视频质量参差不齐，像保持角色风格一致这样的难题还未得到解决。要想仅凭一个文本提示（或者几个提示）就制作出类似皮克斯电影的短片，我们还有很长的路要走。​

然而，过去一年在视频生成技术上取得的进展预示着我们正处于一场巨大变革的初期阶段，这种情况与图像生成技术的发展颇为相似。文本生成视频的模型正持续进步，并且像图像转视频、视频转视频这样的衍生技术也开始流行起来。​

为了更好地理解这一创新浪潮，我们追踪了目前为止该领域的重大发展、值得关注的公司，以及尚待解决的关键问题。​

如今在哪些地方可以尝试人工智能视频生成呢？

产品方面

截至目前，我们今年已经发现了 21 个公开的人工智能视频生成工具。你或许听过 Runway、Pika、Genmo 和 Stable Video Diffusion 这几个名字，但实际上还有许多其他的工具值得探索。​

大多数这类产品都是由初创公司推出的，它们往往起初以 Discord 机器人的形式存在，这有几个优点：​

无需开发面向消费者的界面，可以全力提升模型的质量

借助 Discord 拥有的1.5亿月活跃用户群体进行推广 — 特别是当你的产品出现在平台的“发现”页面时​

公开频道能让新用户通过观看他人的创作来轻松获取灵感，并为产品提供社交认证​

但随着这些产品的成熟，我们发现越来越多的视频工具开始建立自己的网站甚至开发移动应用。虽然 Discord 是一个不错的起点，但它在添加工作流程和控制用户体验方面有限制。此外，还有一大部分人不怎么使用 Discord，可能会觉得它的界面使人困惑或不经常登录。​

研究和大型科技公司

谷歌、Meta 等似乎并未在公开产品名单中出现 — 尽管我们看到他们发布了一些关于如 Meta 的 Emu Video、谷歌的 VideoPoet 和 Lumiere、字节跳动的 MagicVideo 等模型的高调宣传。​

到目前为止，除了阿里巴巴之外，这些大型科技公司选择不公开他们的视频生成产品。他们更倾向于发表各种视频生成形式的论文和发布演示视频，但尚未宣布这些模型是否会对公众开放。​

为什么说2023年是AI视频的突破年？以及2024年的展望​