用GPT4V写AR交互

飞书用户8537

2024年1月11日修改

📣

作者：Garman邬嘉文

原地址：用GPT4V写AR交互

场景设定

面向现实

•
面向现实是AR眼镜跟手机的最大差异点。​

	虚拟场景	现实应用
AR	娱乐为主，沉浸感强，交互困难	？
手机	视频娱乐、语音社交，操作简单	较少，如拍照翻译

操作指令

•
现实物体繁多，难以预测下一步的指令操作，语音交互更适合长尾指令。​
◦
当我在现实中选定手机时候，AI会给出下一步提示：手机型号、新旧程度、维修售后、购买价格、启动自拍、查看信息等。我们很难对每一个SKU物品进行操作定义，制定GUI流程图。​
◦
语音交互虽然需要思考，操作成本高，却对现实物体进行细颗粒的指令交互。这使它像车载交互、智能音箱那样，限定特定应用场景，作为手机应用场景的补充。​

应用场景

•
Copilot私人助理​
◦
翻译，会议总结，问题求解。​
◦
通过Langchain或Zapier等调度第三方API，实现智能家居。​
◦
Demo展示。考虑到开发量，先用Macbook模拟AR眼镜。​
      假设在街上看到一件紫色衣服，问GPT如何搭配，GPT回复内容在空中固定显示。​

技术方案

底层框架

Ilya Sutskever在5年前分享过meta-learning，其中有一个叫Self-play概念。就是两个AI在一个虚拟环境（play ground）相互博弈，通过RL最终实现学习能力。所以在ChatGPT Code Interpreter环境下，用户可以使用自然语言Prompt转为code，Code Interpreter反馈出错信息，GPT会根据错误信息再次调整code直到成功运行，完成指令。

基于这样的技术框架，GPT通过prompt to code实现语义理解，语音转换，视觉分析，图像生成，API调度等一系列Action。用户甚至可以自定义AR的交互方式。​

画板

技术实现

业务方案

1.
系统唤醒：手势Pinch​
备选方案：语音唤醒、镜腿按钮、手指hover（看下图）​

2.
物体选定：语音描述（GPT Speech to text）​

备选方案：利用YOLO来实现物体选定（看下图），但每个物体都要重新训练，成本高，不推荐。​

3.
操作指令：语音描述现实物体+操作指令发给GPT-4-Vision API。Demo跳过AST语音转文字。​

4.
结果显示：GPT-4-Vision返回响应，并跟随现实环境固定显示。​

Prompt

1.
通过GPT Prompt转为python语言，在本地运行。​

2.
GPT4 context windows只有8k，这包括输入和输出内容。这意味着GPT4难以将一个复杂需求（feature>5)直接转为完整python代码。（期待GPT4 turbo的128k context windows，感觉啥都能干）​

3.
将需求拆分成feature，每个feature逐一实验，验证通过后让它再合并输出，极限是200行代码/次。​

用GPT4V写AR交互​

用GPT4V写AR交互