分享
美团龙猫再开源LongCat-Flash-Thinking模型,细节满满!
输入“/”快速插入内容
美团龙猫再开源LongCat-Flash-Thinking模型,细节满满!
用户4242
用户4242
2025年9月23日修改
🔗 原文链接:
https://mp.weixin.qq.com/s/pdF-6f48...
原创 刘聪NLP 刘聪NLP
2025年09月23日 08:24 江苏
大家好,我是刘聪NLP。
昨天刷到美团龙猫又开源新模型了,LongCat-Flash-Thinking,这次是思考模型。
8月底,美团先开了LongCat模型,我也是第一时间评测了,
详细见!
这次LongCat-Flash-Thinking的技术报告依旧干货满满,很多有意思的东西,
就比如各领域数据分开进行RL,然后融合,我之前只看到在SFT上会这么做,没想到RL也行~
咱们依旧老规矩先看细节,再评测。
LongCat-Flash-Thinking,也是MoE模型,模型结构跟LongCat一样,依旧是零计算专家等等,相关介绍看我上一篇。
核心区别在于训练方式不同,训练涉及两个阶段,长CoT冷启动训练和强化学习,训练流程如下图所示,
先看冷启动部分,包括Mid-training和SFT,核心是高质量数据构建,
Mid-training阶段(也可以叫做增量预训练)采用课程学习的思想,将通用数据加入 STEM (竞赛难度)和 Code (编程竞赛) 数据,在不削弱模型通用基础能力的前提下,建立较高地推理能力起点。
SFT阶段主要涉及三个部分数据,
通用推理数据
,包括STEM、Code、逻辑和问答,Prompt过滤,用LLM初筛过滤不完整、无法回答或质量过低的Query,而对于Code,需具备清晰描述、不少于5组单元测试、有可执行评测脚本;
同时,按照题目通过率,丢弃太过简单地题目,按难度分布采用构建Prompt数据集。
回答构建,采用拒绝采样用LongCat-Chat为每题生成多个候选回答,结合规则与模型评判选出最高质量响应作为训练数据。
形式推理数据
,(形式推理就是以机器可验证的格式进行推理,例如,Lean4形式语言,前段时间DeepSeek-Prover模型就是干这个的),利用8B模型将自然语言题目转换为Lean4形式,再用语法和语义进行双重过滤,证明过程合成时采用迭代合成,不断将验证成功的数据,添加到训练数据中,最后形成陈述-思考-证明数据集。
Agent推理数据
,采用双路径评估选择需要使用工具的Query,然后在MCP工具服务器上对Query生成多个候选路径,利用多模型评估正确性、逻辑一致性、工具完整性,通过的数据保留。
整体SFT数据比例,STEM-35%,Code-20%,General QA-20%,Agent-14%,Proving-8%,Logic-3%。
RL部分真是做了好多工程上优化,再次感叹,美团在infra上的实力,我是真没想到~
为了提高RL的训练效率,美团提出了DORA(Dynamic ORchestration for Asynchronous rollout)异步弹性共卡系统系统,利用多个旧版本 Actor 模型进行流式 rollout,避免最长样本阻塞,可以采样一致性,支持中断样本 KV-cache 复用,同时通过弹性共卡调度(elastic colocation)并行化生成与训练,实现接近零气泡的设备利用率。
DORA 采用分离式架构,将加速器集群划分为两类:
•
独立组:仅承担生成角色,为 Actor 模型的推理副本
•
弹性组:可按需动态切换为Reference & Actor,Reward & Critic 等角色,实现资源弹性
RL的目标为GRPO,不过移除了 GRPO 中的 KL 惩罚项,避免 biased 梯度并允许大更新,同时采用 Token 级损失,缓解长样本偏差;还引入三重裁剪,防止稀疏 MoE 下重要性权重爆炸。