用Claude Code+sub-agents做全栈开发：国产AI 编程四大金刚测评，天花板在哪？

用户4242

2025年9月11日修改

原创饼干哥哥饼干哥哥AGI2025年08月28日 15:30 美国

8月，国产AI编程在全球范围内都杀疯了。

海外有一个叫Design Arena的平台，通过真人测评的方式对模型和工具进行排名。​

如果我们把条件设为「开源」，就会发现，TOP15 都是中国的大模型​

46%

54%

说白了，就是给 DeepSeek、GLM、Qwen、Kimi 包圆了。

而他们最近都在主打 Agentic编程能力。

我一直很好奇，他们在 真实落地 的开发场景里，真的能打吗？如果能，他们的天花板差距又在哪？​

为了搞清楚这个问题，我决定直接上真实项目，来场国产AI编程大模型「四大金刚」的测评。​

需求起源是我自己的创业公司 NextGrowthSail 需要一个官网。我们是做AI出海营销的，所以官网得像样点，不仅要展示业务、案例，还得有一个独立的Blog模块，用来做内容营销，吸引谷歌的流量。​

这个需求，可以说是每个创业公司的标配了。

这个「全栈开发」任务，直接丢给它们最强的型号： GLM-4.5、Kimi K2、DeepSeek V3.1、Qwen3-coder。​

同时为了发挥它们最强的实力，直接用 Claude Code ，加上 sub-agents 这种更高级的协同工作模式。​

项目有两个难点：

1.
非主流框架 ：用的是 Astro， 它在出海圈内口碑很好，网站速度飞快，对谷歌SEO特别友好，但又相对小众， 非常考验AI模型的知识储备和应变能力。​

2.
前后端衔接 ：现在很多AI编程工具只会帮你写前端页面，一提到后端和数据交互就“置若罔闻”。所以也要上后端，用 WordPress headless CMS ，AI必须搞定前端Astro怎么通过API去拉取WordPress里的博客文章，并动态展示出来。​

也就形成了这次的技术方案， Claude code+sub-agents 做全栈开发：前端网站 Astro +后端服务wordpress headless​

考核维度：

•
前端页面的审美： 布局、组件一致性、响应式表现​

•
性能与开发效率： 生成速度、上手门槛、出错率、修正难度​

•
任务理解能力： 对业务需求/细节的还原度（如 API 集成、内容动态渲染）​

•
常见问题与“翻车”点： API 兼容性、依赖安装、部署卡点等​

•
性价比： 消耗 Token/次数、价格、产出效率（结合实际成本测算）​

插一句，为什么没把国外的闭源大模型在放进来，一是实力确实还有差距，二是在国内的话真正能用上海外大模型的还是真少数，所以还是希望国产模型能做好，才真正能AI普惠。​

OK，接下来，也带大家看一下， 如何完整的用cc跑一个带seo blog的出海网站。​

Claude Code Sub-agents准备

之所以要用Sub-agents， 是因为复杂任务必须“分而治之”，避免AI陷入混乱。​

否则，单个AI在处理全栈开发这种长流程任务时，极易丢失上下文、搞混需求。​

那如何在Claude Code中创建Sub-agents呢？

用Claude Code+sub-agents做全栈开发：国产AI 编程四大金刚测评，天花板在哪？​