六大主流Agent横测，能打的只有两个半

用户4242

用户8537

2025年7月8日修改

编者荐语：

上半年的Agent们卷通用、卷设计、卷办公、卷创作、卷OA，所以有没有一个评测体系能测出它们的好用程度呢？于是这篇全面不难懂的文章诞生了！​

以下文章来源于洛小山，作者洛小山

Hi ，我是洛小山，与你一起聊聊 AI 与文字创作。

最近一直想写一些我对 AI Agent 产品以及商业化的思考，工作太忙了以至拖到现在 （不是懒） ，趁着假期碎碎念然后安心带娃。​

Ps. 我会把所有相关引用原文放到文章底部参考资料部分，便于你进一步阅读。​

🏕️

全文大纲

一、这些 Agent 真能留下来吗

二、拆解代表性 Agent

三、垂类 Agent 会被模型升级淘汰吗

四、信任是不是 Agent 的护城河

五、入口和心智同样重要

一、这些 Agent 真能留下来吗？

Karpathy 说：“未来十年是 Agent 的十年。”

这话听起来有点像 VC 忽悠人的 Slogan。

不但句式完整，想象力很足，甚至还带那么点规划。

不过，我深以为然。

因为现在 Token 越来越便宜， MCP 越来越丰富，用户也越来越能接受长耗时的 AI 过程。​

过去半年，我们眼见着一个个 Agent 产品从 Demo 走向 B/C 端 …

Manus、扣子空间、Lovart、Flowith Neo、Skywork，还有最近开源的超级麦吉。​

邀请码被炒到几千块，内测还没上线就有企业问能不能搞私有化部署的都有。​

只不过，我越用越在想，这么多 Agent，

到底什么样的产品，能在大浪淘沙之后留下来？

我自己拆解产品价值时，会考虑这样的一条公式：

产品价值 = 能力 × 信任 × 频率

• 能力： 指的是你到底能帮用户做成什么事？有没有形成稳定、可交付的产物？​

• 信任： 是用户愿不愿意让你接手这件事？过程是否可控、行为可解释？​

• 频率： 则是你是不是在用户需要的场景里，随手能调起？​

每个维度最高分是 3 分；分为高中低与 0。

基础线是 8 分，超过 8 分属于好 Agent， 低于 8 分属于存疑产品。​

六大主流Agent横测，能打的只有两个半​