不算特别意外,OpenAI 使用了 transformer 作为主要架构,结合 diffusion model,幸好还不是端到端的 autoregressive 模型,否则太吓人了(不过这样一来,transformer 在自然语言处理,图像视频生成,语音合成(最近 amazon 的工作 BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data*),科学计算(AlphaFold,GraphCast)等最困难的领域都孤独求败了。