分享
【我教 Apple 做 Agent】Qwen3 与 iPhone17 的 AI 新功能以及智慧识屏 iOS 版
输入“/”快速插入内容
【我教 Apple 做 Agent】Qwen3 与 iPhone17 的 AI 新功能以及智慧识屏 iOS 版
用户8537
用户8537
用户9482
用户9482
2025年5月14日修改
via 公众号:谭少卿 原创 2025年05月06日 18:42 北京
原链接
https://mp.weixin.qq.com/s/vB88PBC0nY3hS7UeU3KTDA
引言
🏖️
“You can't connect the dots looking forward; you can only connect them looking backwards.”
— Steve Jobs
众所周知,Apple 在海外版与 ChatGPT 合作,除了发布之初的一点讨论,过去了这么久,一个水花都看不到,就像中国跳水运动员一样。而苹果与阿里在中国市场达成合作,将采用千问系列模型,而今年他们将发布 iPhone17 。
以防他们整不出新东西,我们先设计一个[手动狗头]。然后就在 Qwen3 的模型基础上结合 iOS 现有能力,拆解实现,在最后给你看一个例子,识别二维码进去,现在就可以体验一下核心能力。
---
一句话 PRD
用户在手机上通过 Siri 下达任意的任务。Qwen3 进行需求理解、任务规划,然后调用系统快捷指令的编程能力和 APP 开放的协议,实现多 APP 多 API 的联动,完成任务。也可以更进一步自己动。
Connect the dots,以 iPhone 为例
首先对当前基本形成共识的 AI Agent 的实现逻辑,进行一个公式化的阐释:
💡
Agent = LLM + 任务规划 + 工具编排 + 工具调用 + 长期记忆 + 情境触发 + 目标评估 + 安全治理
如果是多 Agent 架构,还需要增加一个协同的协议,例如 A2A 。
Apple 的实现逻辑,以 iPhone 为例,对应过来,
💡
Apple 本地原生 Agent 能力 = Qwen3 (任务规划 + 工具编排) + 工具使用(快捷指令的生态 + APP 开放的 scheme) + AI 产品三要素(Profile + Preference + Context)[注释] + 目标评估 + 安全治理
[注释] 详见 AI 产品三要素,首次提出于
《浅谈 AI 产品的交互设计以及 Agent 演进路线》
第五节。
对每个要素进行简单的拆解:
1、
Qwen 系列的模型
,能力实际非常强大,完全可以在双方的合作下实现较好的任务规划、工具编排。
2、
工具使用
,iOS 的快捷指令本身就具备较为强大的编程能力,可以实现非常多的能力,只是因为过于“专业”而没有被普及。此外,苹果对生态能力的掌控是毋庸置疑的,很多 APP 都支持了快捷指令的协议。比如:
15%
15%
15%
15%
41%
3、
AI 产品三要素
,这是我在之前专栏文章提出的,对用户数据进行结构化,从而实现较好的隐私管理和协作。苹果应该也可以很好地实现这一点。用户的基本属性、用户偏好、用户当前情境。回顾一下 iOS 这么多年来的生态拥有多少数据,手机、电脑、健康、家居等等,包括产品上的 Siri 建议探索等等。苹果可以做好这一点。详见文末几篇文章。
4、
目标评估
,more intelligence, less structure 基本成为共识了,不过在更为主观的任务上,理解人的偏好,苹果有这么多用户、这么多年的反馈数据,相信也可以做到更好。
5、
安全治理
,好吧,安全治理和隐私,一直是苹果的强项。按更可实现的做法,苹果可以给每个人一个在线沙盒,端到端加密 等等,然后实现每个人的云端 AI Agent 服务,也是可以的。也可以支持各种在线服务,比如 Apple 的 MCP 商店或者自己定义的更可控的协议。甚至可以作为高级服务进行订阅。
我们把全本地化改成端云结合的能力,得到一个新的公式,实现更好的用户体验:
🥇
Apple 原生 Agent 能力 = 端云结合的 Qwen3 (任务规划 + 工具编排) + 端云结合的工具使用(快捷指令的生态 + APP 开放的 scheme + MCP 等) + AI 产品三要素(Profile + Preference + Context) + 目标评估(AI + 人类行为数据反馈) + 安全治理(沙盒 + 权限管理 + 端到端加密)
显然 Apple 也能实现强大的多 Agent 协作。
Apple 的一些强大之处:
•
Tools 的原生支持(快捷指令、iOS 原生能力)
•
大量 App 已经有了(除开原生 app 支持和内建的可视化编程能力,滴滴打车、支付宝等等等等)
•
多 Tools 的原生选择(Fellou 本地化的优势之一,iOS 系统级理应做得更好,详见
《Fellou 不是 AI 浏览器!Fellou 更不是 Manus。》
),并且 AI 决定用哪些 APP 其实是有难度的,但调用你已经装了在用的 APP,就很简单了
•
Tools 的偏好设置(相册、旅行游记的照片、历史修图的偏好、音乐的偏好、健康偏好等)
•
强大的跨平台能力(操作系统级别的互通,iPhone、Mac、iPad、iWatch 等)
•
兼顾 app 生态与新的原子能力生态(开发者的利益)
•
强大的开发者生态和工具(Xcode 支持 AI+API)
一个示例先睹为快