一篇具身智能的最新全面综述！（上）

用户9236

2024年11月1日修改

🔗 原文链接： https://mp.weixin.qq.com/s/3xaUU6bX...

⏰ 时间：2024年10月27日 22:50 (UTC+8)

作者：郑程睿算法工程师

最近，具身智能的概念很火。

不论是这几天稚晖君开源人形机器人全套图纸+代码，引发圈内热议。

common.docs_name - LarkCCM_Docs_Menu_Image

还是各类具身智能产品，如李飞飞的 Voxposer、谷歌的 RT1 和 RT2、谷歌的 RTX、字节跳动的 Robot Flamingo、斯坦福的 ACT 和卡耐基梅隆的 3D_diffuser_act，均在不同任务和场景中展示了强大的能力，并有潜力带来革命性的变革。​

那什么是具身智能呢？它又有什么用？

一文带你了解。

本文拆分为上下两篇，明天会更新下篇，聚焦人机交互、发展讨论。​

本文部 分参考中国信息通信研究院和北京人形机器人 创新有限公司的《具 身智能发展报告》​

具身智能基本概念

具身智能，即“具身 + 智能”，是将机器学习算法适配至物理实体，从而与物理世界交互的人工智能范式。以 ChatGPT 为代表的“软件智能体”（或称“离身智能体”）使用大模型通过网页端、手机 APP 与用户进行交互，能够接受语音、文字、图片、视频的多种模态的用户指令，从而实现感知环境、规划、记忆以及工具调用，执行复杂的任务。在这些基础之上，具身智能体则将大模型嵌入到物理实体上，通过机器配备的传感器与人类交流，强调智能体与物理环境之间的交互。​

通俗一点讲，就是要给人工智能这个聪明的“头脑”装上一副“身体”。这个“身体”可以是一部手机，可以是一台自动驾驶汽车。 ​

而人形机器人则是集各类核心尖端技术于一体的载体，是具身智能的代表产品。​

具身智能的三要素：本体、智能、环境

具身智能的三要素： “本体”，即硬件载体； “智能”，即大模型、语音、图像、控制、导航等算法； “环境”，即本体所交互的物理世界。 本体、智能、环境的高度耦合才是高级智能的基础。​

不同环境下的会有不同形态的硬件 本体 以适应 环境 。比如室内平地更适用轮式机器人，崎岖不平的地面更适用四足机器人（机器狗）。在具身智能体与 环境 的交互中， 智能 算法可以通过 本体 的传感器以感知 环境 ，做出决策以操控 本体 执行动作任务，从而影响 环境 。在 智能 算法与 环境 的交互中还可以通过“交互学习”和拟人化思维去学习和适应 环境 ，从而实现 智能 的增长。​

具身智能的四个模块：感知-决策-行动-反馈

一个具身智能体的行动可以分为“感知 - 决策 - 行动 - 反馈”四个步骤，分别由四个模块完成，并形成一个闭环。​

感知模块

感知模块负责收集和处理信息，通过多种传感器感知和理解环境。在机器人上，常见的传感器有：​

1. 可见光相机：负责收集彩色图像。

 2. 红外相机：负责收集热成像、温度测量、夜视和透视。红外相机能够检测物体发出的热辐射，即使在完全黑暗的环境中也能生成图像。这种能力使得红外相机适用于夜视和热成像。红外相机可以测量物体表面的温度，广泛应用于设备过热检测、能源审计和医学成像等领域。某些红外相机能够穿透烟雾、雾气和其他遮挡物，适用于应急救援和安全监控。​

3. 深度相机：负责测量图像中每个点与相机之间的距离，获取场景的三维坐标信息。​

一篇具身智能的最新全面综述！（上）​

一篇具身智能的最新全面综述！（上）