国内规模高达200亿，AI 新浪潮真的是“具身智能”吗？

英伟达CEO黄仁勋（Jensen Huang）曾预言：“AI 的下一个浪潮将是具身智能（Embodied AI）。”

继AI聊天机器人、大语言模型之后，具身智能作为AI领域的一个新的发展方向正受到越来越多的关注。

“具身智能是一种知行合一的AI，也就是在‘知’的层面上，智能体要具有感知、推理、决策的能力。在‘行’的层面，智能体可以通过身体的动作和表情，与环境以及其他智能体进行交互。这是一种既要有大脑，还要有躯体的智能体。”上海人形机器人制造业创新中心首席科学家江磊表示。

江磊强调，“具身智能的最佳物理形态就是人形机器人。”

近期举行的2024全球开发者先锋大会多场分论坛上，数位专家、学者和先锋开发者分享了对具身智能以及人形机器人产业创新的思考。

人形机器人是“具身智能”的承载形态

所谓“具身智能”，就是指机器人或智能系统能够通过感知器和执行器与其所处的环境进行实时互动，通常具备感知、认知、决策和行动的能力，能够根据环境的变化做出相应的调整。

与传统机器人相比，具身智能对环境的感知和响应能力相对更出色。而且，具身智能不仅能接收外部信息，还能理解这些信息，并作出适当的反应。

在此之前，华人计算机科学家、斯坦福大学教授李飞飞，上海交通大学教授卢策吾等人都曾提出“具身智能”这一概念技术。

随着2022年底发布的ChatGPT风靡全球，在 ITF World 2023 半导体大会上，黄仁勋表示，AI 的下一个浪潮将是“具身智能”，即能理解、推理、并与物理世界互动的智能系统，引发全球关注。

在全球科技竞赛的新赛道上，人形机器人正成为各国竞相布局的焦点。借助政策驱动和资本助力，这一领域的创新和突破正在加速。2024年以来，人形机器人的商用化应用示范也正成为行业发展重点，然而商用化进程中仍面临挑战，这既是考验，也是激发创新潜能的契机。

“人形机器人是具身智能最完美、最佳的承载形态，可能也是通用机器人的终极形态。”清华大学交叉信息研究院助理教授、星动纪元创始人兼CEO陈建宇表示。

陈建宇称，“不管是工业场景还是我们的生活场景，目前大部分的事情还是由人来做。所以我们急需这样一个更通用的机器人来帮助我们完成很多的任务。”

在陈建宇看来，人形机器人有三大优势：

一是能最大限度地适配人类环境。整个人类的基础设施、外界环境就是完全为人类建造的，这是不能改变的，因为人始终要生活在这个环境里。“如果我们要做一个机器人，它要通用的在人类的生活环境里面生活，那它一定只有以人的形态才能去最大限度地适应。”陈建宇说。
第二，从技术的角度来讲，未来人形机器人这样的具身智能肯定是以数据驱动，数据是很重要的一个环节。对于人形机器人来说它的数据可得性更高，因为它有跟人类更接近的形态，可以更加方便地从人的行为中来获取数据。
第三，人形机器人也更能满足人类情感与审美的要求，因为它有跟人更相似的形态。

江磊也同样认为，人形机器人就是具身智能的最佳物理形态。

据公开数据显示，目前国内人形机器人的产业规模已经达到200亿，远远超过所有人的预想。

2023年以来，很多原本做人形机器人的公司也在增加具身智能的新概念。“我们给了它一个新的名词叫通用人形机器人。目前在中国通用人形机器人整机的商业公司已经超过了25家。这个数字每天还在增长，可以说我国已经成为全球人形机器人产业的一个热门聚集地。”江磊表示。

为何具身智能在AI领域越来越受到关注？上海人工智能实验室研究员庞江淼表示，之前大家更关注计算机视觉、自然语言处理，现在具身智能突然受到了很大关注，是因为它的底层每一个模块的技术都已经趋近成熟了。“ 在这样的情况下，我们能够基于强化学习的方式去解决一些传统NPC解决不了的控制问题。智能机器人是一个系统工程，那当这个系统工程的每个子模块的技术都有了跃进，那它本身就会成为下一个时代的目标。”庞江淼说。

复旦大学计算机科学技术学院研究员叶广楠指出，目前大模型的发展是机器人领域发展的一个核心原动力。因为大模型有大量的数据，有强大的并行计算的能力，大模型实际上给机器人的核心内部注入了真实需要的“灵魂”。大模型会对机器人各个阶段的发展起到很大的促进的作用。

人形机器人进化要素在于数据、算法和本体

谈及未来人形机器人创新发展的技术关键，陈建宇指出，对于大语言模型发展主要的进化要素是数据、算法，而对于机器人来说有一些不同，除了数据和算法都需要从机器人的角度有一定的改进以外，还要加上本体。

本体和数据、算法的关系非常紧密。陈建宇认为，对于机器人的数据来说，它一定是需要从本体上面产生的，不管是现实世界的本体还是虚拟世界的本体。同时，算法在目前也跟本体有一定的耦合性，现在还不能说完全能解耦开去做这件事情，所以是三位一体联合去迭代的过程。

“人形机器人本体部分的关键技术点在于关节和灵巧手，比如腿部的关节和需求怎么做，灵巧手要有多少自由度，触觉怎么做，怎么样平衡精度等等。此外还有一个很有意思的问题，就是人形机器人的手腿协同。我们发现如果还沿用原来的四足架构的话，当我们想让（机器人的）手做一些训练集没有做过的事情，就会非常影响腿部的稳定性。所以我们提出了‘去中心化’的训练架构，使得手和腿在必要的时候进行一定程度的解耦，但是需要的时候它又可以做到比较好的耦合。”陈建宇说。

江磊则从硬件、智能和场景三个方面来分析人形机器人在未来如何落地。

江磊坦言，“首先是硬件，硬件还是集中在一定要打造一款低成本的硬件，才能指望它进入千家万户，思路和以往也不同，这一轮低成本硬件我们更希望通过新制造、新传感、新材料，使得机器人所有的复杂基建系统，尤其减速器、驱动器、电机、传感器和芯片真正进入智能阶段；其次是如何实现智能，‘具身智能’给了我们一个答案，具身智能+核心零部件会成为这个新赛道的新方向，比如特斯拉擎天柱Optimus人形机器人，仅使用视觉和关键位置编码器，就可以在空间精准定位自己的肢体，这可以减少对高性能传感器和减速器的依赖，有利于降本。（人形机器人）通过臂、手、眼的协同实现操作，从而降低成本。这也是我们希望核心零部件厂商关注的一个方向；最后是场景，未来具身智能应该是通过场景去打造一个规模化的数据集，然后把这个规模化数据集整理以后发给具身大模型。”

在江磊看来，具身智能未来可大致分为三种实现路径：一是非端到端的路径，采用语言大模型、视觉大模型，加载机器人就可以实现控制；二是半端到端，类似谷歌DeepMind发布的机器人大模型RT-2；三是完全端到端，江磊更看好完全端到端的路径，

“（因为）这是一种理想的技术途径，而且只有完全端到端能把软件和硬件进行解耦，让稳定应用成为可能。”江磊称。

终极阶段的具身智能将拥有自主意识

未来“具身智能”的终极目标是什么？

上海人工智能实验室研究员庞江淼认为，最终目标还是它能为人服务，以人为中心，实实在在的提高一些生产力。“其实落到实际的产品迭代，作为一个科研从业人员，我们总是在研发各种各样的前沿技术，但是对于产品来说，我觉得还是应该以产品设计为导向，就是什么事是真正有用的，然后我们再想办法怎么去解决这些技术。”

陈建宇则从人形机器人的本体和智能性上作出展望。

“第一个阶段是达到具身智能的ChatGPT时刻。它有相对应的很好的硬件本体，人形机器人的触觉和身体关节都做的非常好非常成熟，成本也能接受。而在智能性层面，达到一个类似ChatGPT的状态，你教它干一个什么事，它对物理世界会有尝试，并且它有通用的决策、行动还有控制的能力，然后能做各种各样的事情。并且也具备比较强的学习的能力。

而第二个阶段就是具有自主意识。像现在，ChatGPT是没有灵魂的，你不会认为它真的有自己的思想，能帮助你回答比较难的一些问题。但如果它真的有了自主意识，它就是一个新的物种了，那么我们就需要考虑该怎么处理它与人类的相处，它需不需要有一个身份，是不是要跟我们人同等的去合作、竞争等。总的来讲，我觉得还是要非常谨慎地去看AGI。”

美国伊利诺伊大学香槟分校硕士，帕西尼感知科技联合创始人、COO聂相如认为，当机器人实现了具身智能的终极能力时，乐观主义者可能会觉得这不仅是一个效率的极致提升，还意味着人类与机器人可以有灵魂交往了。但从技术层面来看，这确实会在伦理道德上产生非常多需要把控的问题。像之前下围棋的机器人AlphaGo，它自我迭代的速度非常强悍，在极短时间内就拥有了非常强大的能力，把人类围棋这个领域拿下，完虐世界超一流的选手。

“总之，我们当然希望这一步会到来，但机器人实现这一步需要什么样的技术路线、布局，一些前沿技术在论文阶段、实验室阶段怎么沉淀下来，这个是需要我们大家一起努力的地方。”聂相如表示。