分享
面对 Agent 红海,依旧有惊喜|Kimi OK Computer 实测
输入“/”快速插入内容
面对 Agent 红海,依旧有惊喜|Kimi OK Computer 实测
用户4242
用户4242
2025年10月4日修改
近日 Kimi 也开始小规模内测一个 Agent 新品,名称在一众 Agent 友商中,很有人文味与自信,
叫做:
「OK Computer」
。
不同于此前 Kimi 发布的 Researcher 专精 Deep Research 任务,
「OK Computer」
则是
Kimi 模型的通用 Agent 模式,
配备了单独虚拟电脑,支持更多工具调用,能够完成
网站开发、PPT 设计、数据可视化分析、深度研究、方案策划
等任务。
自然,从 25 年 3 月 Manus 发布以来,我们已经见过了层出不穷的通用 Agent 产品,如 Claude Code、扣子空间、Skywork、Lovable 等等……
阅尽千帆,
本文仍想通过一系列典型 Agent 任务实测
,为你解析 Kimi OK Computer 的真实水平。
我也会将它的表现,和过往深度体验的 Manus 等顶尖 Agent 进行参照,
来看
Kimi 这个,以 90 年代最伟大的摇滚专辑之一命名的 Agent,能否如其名般地带来惊喜
。
📬 写在测试之前
与先前已发布的 Kimi Researcher 一脉相承,
OK Computer
与已有通用 Agent 产品不同,继续
延续了端到端强化学习的训练路线:
模型即 Agent
。
为了能够更好地真实探究 OK Computer 的水平,我已将测试设计为三部分:
👉
1.
网页应用开发:
从 0-1 设计、开发 Html 宝可梦养成与对战游戏,考察 Agent 自主深度规划与长程执行
2.
复杂数据可视化:
给定数千条表格数据,呈现可视化分析
3.
以及其他 case 展示,包括绘制 AI PPT、制作个人博客等
并适当选择同类任务下备受用户好评的友商 Agent 进行参照,校准它当下的行业身位。
你可以带着对 Kimi Agent 的好奇,在实测中找到最终答案。
在文末,我也结合了测试结果,向你分享我所理解的,OK Computer 对于 Kimi 的特殊意义。
👉 真实实测表现
1️⃣
网页应用开发
:宝可梦网页游戏
要测试一个 Agent 的极限,比较好的方式就是给它足够复杂、多步骤、开放式的项目
。
我选择让 Agent
从 0-1 自主设计 Html 版宝可梦养成对战游戏
,并选择了擅长构建 Web 应用的
Manus、Lovable 作为参照系
,进行共同测试对比。
此题难度在于,除了考验 Agent 的 Coding 能力外,更考验 Agent 自主规划的完整性,以及长程任务中的 推理-执行-反馈 的循环质量。
测试 Prompt 如下:
代码块
Markdown
我想做一个 Html 版宝可梦养成与对战游戏,能够基于宝可梦游戏的主要玩法,设计一套完整、适合在 Html 游玩的游戏内容,请仔细推敲游戏玩法,使用合适的像素风格宝可梦素材,设计对应游戏 UI 与内容,并完成开发上线。要求实现移动端兼容。
我录了一下各个 Agent 生成的网页游戏的效果,你可以自行来看看效果:
1)Kimi - OK Computer: