美团龙猫再开源LongCat-Flash-Thinking模型，细节满满！

用户4242

2025年9月23日修改

🔗 原文链接： https://mp.weixin.qq.com/s/pdF-6f48...

原创刘聪NLP 刘聪NLP2025年09月23日 08:24 江苏

大家好，我是刘聪NLP。

昨天刷到美团龙猫又开源新模型了，LongCat-Flash-Thinking，这次是思考模型。​

8月底，美团先开了LongCat模型，我也是第一时间评测了，详细见！

这次LongCat-Flash-Thinking的技术报告依旧干货满满，很多有意思的东西，​

就比如各领域数据分开进行RL，然后融合，我之前只看到在SFT上会这么做，没想到RL也行~​

咱们依旧老规矩先看细节，再评测。

LongCat-Flash-Thinking，也是MoE模型，模型结构跟LongCat一样，依旧是零计算专家等等，相关介绍看我上一篇。​

核心区别在于训练方式不同，训练涉及两个阶段，长CoT冷启动训练和强化学习，训练流程如下图所示，​

common.docs_name - LarkCCM_Docs_Menu_Image

先看冷启动部分，包括Mid-training和SFT，核心是高质量数据构建，​

Mid-training阶段（也可以叫做增量预训练）采用课程学习的思想，将通用数据加入 STEM （竞赛难度）和 Code （编程竞赛） 数据，在不削弱模型通用基础能力的前提下，建立较高地推理能力起点。​

SFT阶段主要涉及三个部分数据，

通用推理数据 ，包括STEM、Code、逻辑和问答，Prompt过滤，用LLM初筛过滤不完整、无法回答或质量过低的Query，而对于Code，需具备清晰描述、不少于5组单元测试、有可执行评测脚本；​

同时，按照题目通过率，丢弃太过简单地题目，按难度分布采用构建Prompt数据集。​

回答构建，采用拒绝采样用LongCat-Chat为每题生成多个候选回答，结合规则与模型评判选出最高质量响应作为训练数据。​

形式推理数据 ，（形式推理就是以机器可验证的格式进行推理，例如，Lean4形式语言，前段时间DeepSeek-Prover模型就是干这个的），利用8B模型将自然语言题目转换为Lean4形式，再用语法和语义进行双重过滤，证明过程合成时采用迭代合成，不断将验证成功的数据，添加到训练数据中，最后形成陈述-思考-证明数据集。​

Agent推理数据 ，采用双路径评估选择需要使用工具的Query，然后在MCP工具服务器上对Query生成多个候选路径，利用多模型评估正确性、逻辑一致性、工具完整性，通过的数据保留。​

整体SFT数据比例，STEM-35%，Code-20%，General QA-20%，Agent-14%，Proving-8%，Logic-3%。​

RL部分真是做了好多工程上优化，再次感叹，美团在infra上的实力，我是真没想到~​

为了提高RL的训练效率，美团提出了DORA（Dynamic ORchestration for Asynchronous rollout）异步弹性共卡系统系统，利用多个旧版本 Actor 模型进行流式 rollout，避免最长样本阻塞，可以采样一致性，支持中断样本 KV-cache 复用，同时通过弹性共卡调度（elastic colocation）并行化生成与训练，实现接近零气泡的设备利用率。​

DORA 采用分离式架构，将加速器集群划分为两类：

•
独立组：仅承担生成角色，为 Actor 模型的推理副本​

•
弹性组：可按需动态切换为Reference & Actor，Reward & Critic 等角色，实现资源弹性​

RL的目标为GRPO，不过移除了 GRPO 中的 KL 惩罚项，避免 biased 梯度并允许大更新，同时采用 Token 级损失，缓解长样本偏差；还引入三重裁剪，防止稀疏 MoE 下重要性权重爆炸。​

美团龙猫再开源LongCat-Flash-Thinking模型，细节满满！​

美团龙猫再开源LongCat-Flash-Thinking模型，细节满满！