分享
一篇具身智能的最新全面综述!(上)
输入“/”快速插入内容
一篇具身智能的最新全面综述!(上)
用户9236
用户9236
2024年11月1日修改
🔗 原文链接:
https://mp.weixin.qq.com/s/3xaUU6bX...
⏰ 时间:
2024年10月27日 22:50
(UTC+8)
作者:
郑程睿 算法工程师
最近,具身智能的概念很火。
不论是这几天
稚晖君开源人形机器人全套图纸+代码
, 引发圈内热议。
还是各类具身智能产品,如李飞飞的 Voxposer、谷歌的 RT1 和 RT2、谷歌的 RTX、字节跳动的 Robot Flamingo、斯坦福的 ACT 和卡耐基梅隆的 3D_diffuser_act,均在不同任务和场景中展示了强大的能力,并有潜力带来革命性的变革。
那什么是具身智能呢?它又有什么用?
一文带你了解。
本文拆分为上下两篇,明天会更新下篇,聚焦人机交互、发展讨论。
本文部 分参考中国信息通信研究院和北京人形机器人 创新有限公司的《具 身智能发展报告》
具身智能基本概念
具身智能,即“具身 + 智能”,是将机器学习算法适配至物理实体,从而与物理世界交互的人工智能范式。以 ChatGPT 为代表的“软件智能体”(或称“离身智能体”)使用大模型通过网页端、手机 APP 与用户进行交互,能够接受语音、文字、图片、视频的多种模态的用户指令,从而实现感知环境、规划、记忆以及工具调用,执行复杂的任务。在这些基础之上,具身智能体则将大模型嵌入到物理实体上,通过机器配备的传感器与人类交流,强调智能体与物理环境之间的交互。
通俗一点讲,就是要给人工智能这个聪明的“头脑”装上一副“身体”。这个“身体”可以是一部手机,可以是一台自动驾驶汽车。
而人形机器人则是集各类核心尖端技术于一体的载体,是具身智能的代表产品。
具身智能的三要素:本体、智能、环境
具身智能的三要素: “本体”,即硬件载体; “智能”,即大模型、语音、图像、控制、导航等算法; “环境”,即本体所交互的物理世界。 本体、智能、环境的高度耦合才是高级智能的基础。
不同环境下的会有不同形态的硬件
本体
以适应
环境
。比如室内平地更适用轮式机器人,崎岖不平的地面更适用四足机器人(机器狗)。在具身智能体与
环境
的交互中,
智能
算法可以通过
本体
的传感器以感知
环境
,做出决策以操控
本体
执行动作任务,从而影响
环境
。在
智能
算法与
环境
的交互中还可以通过“交互学习”和拟人化思维去学习和适应
环境
,从而实现
智能
的增长。
具身智能的四个模块:感知-决策-行动-反馈
一个具身智能体的行动可以分为“感知 - 决策 - 行动 - 反馈”四个步骤,分别由四个模块完成,并形成一个闭环。
感知模块
感知模块负责收集和处理信息,通过多种传感器感知和理解环境。在机器人上,常见的传感器有:
1. 可见光相机:负责收集彩色图像。
2. 红外相机:负责收集热成像、温度测量、夜视和透视。红外相机能够检测物体发出的热辐射,即使在完全黑暗的环境中也能生成图像。这种能力使得红外相机适用于夜视和热成像。红外相机可以测量物体表面的温度,广泛应用于设备过热检测、能源审计和医学成像等领域。某些红外相机能够穿透烟雾、雾气和其他遮挡物,适用于应急救援和安全监控。
3. 深度相机:负责测量图像中每个点与相机之间的距离,获取场景的三维坐标信息。