DeepSeek深夜发布大一统模型 Janus-Pro将图像理解和生成统一在一个模型中

用户8537

2025年1月28日修改

LLM看这里：详解：DeepSeek深度推理+联网搜索目前断档第一

🤖

关键点：

1.
统一Transformer架构，使用同一个模型就能完成图片理解，图片生成​

2.
提供 1B 和 7B 两种规模，适配多元应用场景​

3.
全面开源，支持商用，MIT协议，部署使用便捷​

4.
Benchmark表现优异，能力更全面（上一个是智源开源的 Emu3​

模型（7B）：https://huggingface.co/deepseek-ai/Janus-Pro-7B

模型（1B）：https://huggingface.co/deepseek-ai/Janus-Pro-1B

官方解释：Janus-Pro 是一种新型的自回归框架，它统一了多模态理解和生成。它通过将视觉编码解耦为独立的路径来解决先前方法的局限性，同时仍然利用单一的统一Transformer架构进行处理。解耦不仅缓解了视觉编码器在理解和生成中的角色冲突，还增强了框架的灵活性。Janus-Pro 超越了之前的统一模型，并匹配或超过了特定任务模型的性能。Janus-Pro 的简单性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。​

下载地址：https://github.com/deepseek-ai/Janus

🤖

通俗解释：JanusFlow就像一个会"看图画+编故事+自己画画"的聪明机器人🤖​

1.
两个超能力：它有两种本领​
◦
🧠理解模式：用"超级眼镜"(SigLIP-L)仔细看图片（最大384x384大小），还能读文字​
◦
✏️画画模式：用"魔法画笔"(校正流+SDXL-VAE)自己创作同样大小的图片​

2.
聪明的大脑：它的核心是DeepSeek语言模型（相当于一个特别会编故事的AI），已经学习过很多知识​

3.
特别训练法：​
◦
先自己看很多图画书学习（预训练）​
◦
然后老师手把手教它（监督微调）​
◦
最后用"精华浓缩法"(EMA)保存最好的学习成果​

🤖

解释：

为什么用Transformer大一统模型，不用Diffusion模型

扩散模型（Diffusion Models）在图像生成上质量更高，但Janus-Pro的设计目标不同：​

•
任务导向：Janus-Pro追求多任务统一（理解+生成），而扩散模型更专注生成质量。​

•
效率考量：扩散模型需要多次迭代去噪（如Stable Diffusion约20步），而自回归生成可能更实时。​

•
架构简洁性：保持单一Transformer架构，降低训练和部署成本。​

好处：

统一Transformer架构：一个大脑，两种思维

•
架构本质：虽然视觉处理分两条路，但后续处理仍用同一个Transformer（类似人脑不同区域处理不同信息）。​

•
关键设计：​
◦
参数共享：底层Transformer同时学习理解和生成任务，促进知识迁移（例如学会「猫」的概念后，生成时自然能画猫）。​
◦
注意力机制：通过跨模态注意力（如文字关注图像区域），实现图文深度对齐。​

•
灵活性：可通过调整输入（如切换理解/生成路径的Token）快速切换任务模式，无需重新训练模型​

测试案例

common.docs_name - LarkCCM_Docs_Menu_Image

DeepSeek深夜发布大一统模型 Janus-Pro将图像理解和生成统一在一个模型中​

DeepSeek深夜发布大一统模型 Janus-Pro将图像理解和生成统一在一个模型中