分享
质朴发言:AI产业背后的亿级美金市场:合成数据|Z研究第 4 期
输入“/”快速插入内容
质朴发言:AI产业背后的亿级美金市场:合成数据|Z研究第 4 期
用户1315
用户1315
2024年4月10日修改
原文链接:
https://mp.weixin.qq.com/s/iEfvn1iG9ue1Hdydsr0ILQ
来源:质朴发言
发文时间:2024.03.16
随着AI浪潮,多家机构判断全球合成数据生成市场规模预计将显著增长:
合成数据 2022 年市场规模为 1.638 亿美元,预计到 2031 年将达到 34 亿美元,复合年增长率为37.3%(
Straits Research
)。
合成数据的市场规模将从 2023 年的 3 亿美元增加到 2028 年的 21 亿美元,复合年增长率为 45.7%(
MarketsAndMarkets
)。
到 2030 年,市场规模预计将超过 23.398 亿美元,复合年增长率为 31.1%(
Fortune Business Insights
)。
甚至在某个节点,合成数据体量超过真实数据,成为训练模型的主要"燃料";因此 Z 计划 team 对这个 AI 产业背后的亿级美金市场开展研究,提炼观点如下:
观点 1:本轮 AI 技术浪潮下,AI 产业的商业价值将从数据的收集、流转、存储(历史→当下)流向数据的计算、应用、预测(当下→未来)
。
但数据驱动的应用仍存在障碍:高昂成本使数据价值难以发挥。在此背景下,合成数据有望凭借其隐私保护能力、低边际成本开发新数据的能力,重塑 AI 产业。
观点 2:在 AI/ML workflow 变化的过程中,我们认为合成数据本质上既是“数据驱动”理念的新动力,也是被数据驱动的新对象
。
具体来说,合成数据位于 workflow 的数据准备阶段,为模型提供优质训练集;而 workflow 各环节又对合成数据有反馈,进而影响合成数据的效用与迭代。
观点 3:AI 产业重塑的趋势之下,上下游公司及专注合成数据的创业公司将争夺数据合成的关键点位
。
目前已明确入场的包括:拥有垂直场景合成算法 & 强业务 Know-how 的初创团队、积累数据标注评估经验的标注公司、聚集活跃开发者力量的开源模型平台、具备研发 & 用户 & 工程化经验等规模优势的底层大模型厂商、基于已有软/硬件生态拓展合成数据的科技大厂。
基于技术特点、行业趋势及商业价值,我们认为:
合成数据赛道的核心竞争要素依次是数据能力、迭代能力、平台能力和场景选择。🌊
OpenAI Sora 的技术报告中提到:
由 DALL・E 3 生成训练视频相应的 captions,以此达成视频和文本的对齐
使用 GPT-4 自动扩写用户 Prompt,增加场景细节描述,以生成更逼真、细节更丰富的视频。
尽管报告未提到,但许多人猜测 Sora 使用了 UE 生成的高保真游戏场景数据,才达到了如此逼真的效果
此外,Anthropic 推出的大模型 Claude 3 在其技术文档中确认使用了内部合成的数据进行训练
•
从 Sora、Claude 3 等事实中,可观察到一个趋势:“数据训练模型-模型生成/预测/仿真模拟得到合成数据-合成数据训练模型”的 AI/ML workflow 正在形成,其中与传统 AI/ML workflow 最大的区别即为合成数据
◦
无论合成数据算法成熟度如何,“模型再生训练数据”已是大模型在工程化上的成功实践。
◦
考虑到未来模型的复杂性和数据需求进一步提升,合成数据的影响或将逐步扩大,进而重塑 AI/ML workflow
•
AI/ML workflow 变化的本质是什么?合成数据概念从何而来?为何合成数据会对 AI/ML workflow 产生影响?合成数据将如何影响具体 workflow /受 workflow 的反馈影响?什么样的公司将占据合成数据赛道的关键点位?
•
接下来,我们将依次解答上述问题,并在文末整理了多模态数据生成产业的 Mapping。
🌟
目录
建议结合要点进行针对性阅读
。👇
一、为什么合成数据能重塑 AI 产业
1、AI/ML workflow 的价值分布变化:从对当下数据的处理、分析,流向对未来数据的预测、应用
2、数据驱动的应用仍存在障碍,高成本使得数据价值难以发挥
3、合成数据介绍
4、合成数据的特点有望清除数据驱动应用的障碍
二、合成数据如何重塑 AI 产业——通过影响 workflow
1、传统 AI/ML workflow
2、合成数据 workflow
3、融入合成数据的 AI/ML workflow
三、什么样的公司能占据合成数据的关键点位
四、结论:合成数据赛道的核心竞争要素
附:多模态数据生成产业 mapping
1、多模态数据生成的类别
2、国内外多模态数据生成产业图谱
3、合成数据赛道
参考文献
#一、为什么合成数据能重塑 AI 产业
1、
AI/ML workflow 的价值分布变化:从对当下数据的处理、分析,流向对未来数据的预测、应用
a. 需求侧
•
过去,需求集中在数据收集-分析;
◦
过去对数据的利用集中在收集、转换、存储等,即对历史和当下情况的分析;