分享
用GPT4V写AR交互
输入“/”快速插入内容
用GPT4V写AR交互
飞书用户8537
2024年1月11日修改
📣
作者:Garman邬嘉文
原地址:
用GPT4V写AR交互
场景设定
面向现实
•
面向现实是AR眼镜跟手机的最大差异点。
虚拟场景
现实应用
AR
娱乐为主,沉浸感强,交互困难
?
手机
视频娱乐、语音社交,操作简单
较少,如拍照翻译
操作指令
•
现实物体繁多,难以预测下一步的指令操作,语音交互更适合长尾指令。
◦
当我在现实中选定手机时候,AI会给出下一步提示:手机型号、新旧程度、维修售后、购买价格、启动自拍、查看信息等。我们很难对每一个SKU物品进行操作定义,制定GUI流程图。
◦
语音交互虽然需要思考,操作成本高,却对现实物体进行细颗粒的指令交互。这使它像车载交互、智能音箱那样,限定特定应用场景,作为手机应用场景的补充。
应用场景
•
Copilot私人助理
◦
翻译,会议总结,问题求解。
◦
通过Langchain或Zapier等调度第三方API,实现智能家居。
◦
Demo展示。考虑到开发量,先用Macbook模拟AR眼镜。
假设在街上看到一件紫色衣服,问GPT如何搭配,GPT回复内容在空中固定显示。
技术方案
底层框架
Ilya Sutskever在5年前分享过
meta-learning
,其中有一个叫Self-play概念。就是两个AI在一个虚拟环境(play ground)相互博弈,通过RL最终实现学习能力。所以在ChatGPT Code Interpreter环境下,用户可以使用自然语言Prompt转为code,Code Interpreter反馈出错信息,GPT会根据错误信息再次调整code直到成功运行,完成指令。
基于这样的技术框架,GPT通过prompt to code实现语义理解,语音转换,视觉分析,图像生成,API调度等一系列Action。用户甚至可以自定义AR的交互方式。
画板
技术实现
业务方案
1.
系统唤醒:手势Pinch
备选方案:语音唤醒、镜腿按钮、手指hover(看下图)
2.
物体选定:语音描述(GPT Speech to text)
备选方案:利用YOLO来实现物体选定(看下图),但每个物体都要重新训练,成本高,不推荐。
3.
操作指令:语音描述现实物体+操作指令发给GPT-4-Vision API。Demo跳过AST语音转文字。
4.
结果显示:GPT-4-Vision返回响应,并跟随现实环境固定显示。
Prompt
1.
通过GPT Prompt转为python语言,在本地运行。
2.
GPT4 context windows只有8k,这包括输入和输出内容。这意味着GPT4难以将一个复杂需求(feature>5)直接转为完整python代码。(期待GPT4 turbo的128k context windows,感觉啥都能干)
3.
将需求拆分成feature,每个feature逐一实验,验证通过后让它再合并输出,极限是200行代码/次。