分享
DeepSeek深夜发布大一统模型 Janus-Pro将图像理解和生成统一在一个模型中
输入“/”快速插入内容
DeepSeek深夜发布大一统模型 Janus-Pro将图像理解和生成统一在一个模型中
用户8537
用户8537
2025年1月28日修改
LLM看这里:
详解:DeepSeek深度推理+联网搜索 目前断档第一
🤖
关键点:
1.
统一Transformer架构,使用同一个模型就能完成图片理解,图片生成
2.
提供 1B 和 7B 两种规模,适配多元应用场景
3.
全面开源,支持商用,MIT协议,部署使用便捷
4.
Benchmark表现优异,能力更全面(上一个是智源开源的 Emu3
模型(7B):
https://huggingface.co/deepseek-ai/Janus-Pro-7B
模型(1B):
https://huggingface.co/deepseek-ai/Janus-Pro-1B
官方解释:Janus-Pro 是一种新型的自回归框架,它统一了多模态理解和生成。它通过将视觉编码解耦为独立的路径来解决先前方法的局限性,同时仍然利用单一的统一Transformer架构进行处理。解耦不仅缓解了视觉编码器在理解和生成中的角色冲突,还增强了框架的灵活性。Janus-Pro 超越了之前的统一模型,并匹配或超过了特定任务模型的性能。Janus-Pro 的简单性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。
下载地址:
https://github.com/deepseek-ai/Janus
🤖
通俗解释:JanusFlow就像一个会"看图画+编故事+自己画画"的聪明机器人🤖
1.
两个超能力
:它有两种本领
◦
🧠
理解模式
:用"超级眼镜"(SigLIP-L)仔细看图片(最大384x384大小),还能读文字
◦
✏️
画画模式
:用"魔法画笔"(校正流+SDXL-VAE)自己创作同样大小的图片
2.
聪明的大脑
:它的核心是DeepSeek语言模型(相当于一个特别会编故事的AI),已经学习过很多知识
3.
特别训练法
:
◦
先自己看很多图画书学习(预训练)
◦
然后老师手把手教它(监督微调)
◦
最后用"精华浓缩法"(EMA)保存最好的学习成果
🤖
解释:
为什么用Transformer大一统模型,不用Diffusion模型
扩散模型(Diffusion Models)在图像生成上质量更高,但Janus-Pro的设计目标不同:
•
任务导向
:Janus-Pro追求
多任务统一
(理解+生成),而扩散模型更专注生成质量。
•
效率考量
:扩散模型需要多次迭代去噪(如Stable Diffusion约20步),而自回归生成可能更实时。
•
架构简洁性
:保持单一Transformer架构,降低训练和部署成本。
好处:
统一Transformer架构:一个大脑,两种思维
•
架构本质
:虽然视觉处理分两条路,但后续处理仍用同一个Transformer(类似人脑不同区域处理不同信息)。
•
关键设计
:
◦
参数共享
:底层Transformer同时学习理解和生成任务,促进知识迁移(例如学会「猫」的概念后,生成时自然能画猫)。
◦
注意力机制
:通过跨模态注意力(如文字关注图像区域),实现图文深度对齐。
•
灵活性
:可通过调整输入(如切换理解/生成路径的Token)快速切换任务模式,无需重新训练模型
测试案例