熊蓉:人形机器人走进家庭,距离尚远
作者: 何昕晔继大模型之后,“具身智能”成为新一轮人工智能浪潮中最热的概念。有不少人认为,AI只有具备了物理层面的身体,像人类一样用身体去感知世界,在与环境的互动学习中成长,才能进化成通用人工智能(AGI)。
人形机器人被认为是具身智能的理想载体。人们期待未来的机器人不仅能说话,还能对复杂任务作长程动作规划并高效执行。
浙江人形机器人创新中心主任、浙江大学教授熊蓉是国内最早一批做人形机器人研究的学者。她专攻这一领域已有二十多年,曾自主研制出乒乓球对打机器人、小型足球机器人等系统,也经历了从“仿人机器人”到“人形机器人”的技术演变。
在熊蓉看来,目前很多强调具身智能概念的人形机器人,还不具备独立完成任务的智能水平。尽管已经有许多关于人形机器人进入家庭、完成护理工作的美好畅想,但未来机器人率先落地的场景仍将是工业领域,机器人进入家庭还面临安全性等诸多挑战。
熊蓉认为,机器人技术的发展旨在提升工作效率和生活质量,而非取代人类。它能够解决人力短缺问题,满足对工作质量的高要求,并创造新的工作岗位。机器人本质上仍然是工具,其发展目标是解放人类生产力,使生活更加便捷。
Yi YiMagazine
X 熊蓉
Yi 近两年具身智能兴起,其新特征和传统机器人有什么区别?
X 传统机器人在感知方面主要依赖人工特征提取,行为方面主要依赖专家建模的系统和准则,其感知和行为能力受限于预定义的规则,这在很大程度上限制了它们在复杂场景中的泛化能力。本轮大模型技术突破得益于深度学习技术的发展、互联网海量数据的积累以及算力的提升,使得机器人在感知智能上实现了泛化能力的显著提 升。
目前具身智能兴起,其核心在于机器人通过与环境的交互来获取知识,基于场景作出行为决策,并预测行为结果,从而动态调整自身行为,即强调实体机器人通过“感知—推理—交互”的闭环来实现自主作业能力。具身智能的技术进步主要体现在将“感知智能”延伸至“行为智能”,提升机器人的自主决策能力、环境理解能力和交互能力。
Yi 具身智能的兴起是否为机器人产业带来革命性突破?
X 具身智能浪潮的兴起标志着机器人产业步入一个转折阶段,但目前仍处于技术产业化的起始点。实际上,具身智能的技术进步是过去多年各项技术积累的结果。
深度学习技术从2011年开始取得关键突破。2016年,Google利用14台机器训练,开发出能够从料箱中抓取物品的网络。当时的研究尚未使用大模型,但可以被视为行为智能发展的起点。到了2020年,大模型技术逐渐成熟,并迎来爆发式发展。随着大模型技术的融入,机器人在感知、理解和执行能力上取得了很大进步。

但是目前很多强调具身智能概念的人形机器人,其对外展示出的技术能力主要处于demo演示,是小范围场景行为复现。通过仿真平台或者实物数据学习训练行走、操作等交互行为,但目前的技术总体只解决了抗扰动性问题,还不具备我们期望的泛化智能水平。行为执行能力也偏弱,例如,目前许多机器人只能完成抓取、放置和移动等基础动作,而在执行涉及复杂视力触融合的任务(如开盖)时则显得力不从心。
Yi 你在2006年就开发出足球机器人,当时的归类是“仿人机器人”。2024年,你带领的浙江人形机器人创新中心发布领航者2号“人形机器人”。从“仿人机器人”到“人形机器人”,背后的技术路线有何变化?
X 早年我们研发的“仿人机器人”,重点在于模仿人类行为、功能或智能,其外形未必完全拟人化。很多机器人没有采用人形机械结构,比如我们曾用二指夹爪这样的非人形机械结构来完成拧瓶盖等任务。近年来,随着特斯拉的Optimus机器人对拟人化形态和运动的强调,学术界和产业界开始更关注“人形机器人”的概念,特别是形态上的相似性。
从技术发展路径来看,早期的仿人机器人研究主要依赖传统的控制理论和物理建模方法,强调运动控制的精确性和稳定性,让机器人能够完成行走、踢球等动作。不过,该方法对模型参数的精确性要求极高,面对环境扰动(如不平整地面)时的鲁棒性(指系统在面临内部结构或外部环境改变时也能维持其功能稳定运行的能力)不足,且参数调整复杂。
近年来,随着仿真平台、大规模并行训练和强化学习技术的发展,人形机器人研究逐渐转向新的技术路线。例如英伟达Isaac仿真平台等工具的出现,使得机器人可以在虚拟环境中学习和训练。这种方法将传统的物理建模隐含在仿真平台的物理引擎中,研究人员更关注训练的结果和奖励函数的设计。通过强化学习,机器人能够获得更强的鲁棒性,适应一些传统方法难以建模的不确定因素和扰动因素。
Yi 在机器人领域,“人形”的必要性体现在哪里?
X 机器人的形态是否需要无限逼近人类,取决于应用场景和需求。人形机器人被寄予厚望,主要是因为它能够更好适应柔性制造和服务场景的需求。人形机器人不仅局限于工业场景,还可以拓展到更多服务领域,例如成为特定行业的服务员或护理人员等。
举例来说,在咖啡店这个场景中,机器人需要完成倒咖啡、放置杯盖等任务。传统机器人可能需要多台设备协同完成,而人形机器可以通过双臂和视觉智能一体化完成,从而减少设备数量和占地面积。此外,人形机器人能够无缝替代人力,减少产线改造成本。
Yi 目前人形机器人领域的技术路线是否统 一?
X 目前,人形机器人领域的技术路线主要分为传统控制理论和数据驱动学习两个方向,前者强调机理建模,后者强调用深度学习、强化学习等方法结合大规模数据来生成行为。具身智能兴起后,许多学者纷纷转向数据驱动的方向,但我认为不应完全依赖这种方法。目前来看,行走等强化学习工作还是依赖于对机理的深刻理解,具有传统机理研究背景的专家才能够从机理的角度定义目标和约束,并有效解决仿真与现实之间的差距问 题。
此外,从两个技术路线当前的成果看,目前学习方法可以产出模型存在误差等不确定情况下性能更良好的模型,但还不具备传统机理方法在任务输入变化时的通用性,导致模型的行为泛化能力有限,难以适应场景或任务的变化。
Yi 大模型的发展给机器人领域带来了什么?目前结合的效果如何?
X 大模型为机器人带来的变化主要体现在语义理解和常识推理能力的提升上。借助大模型的语义理解能力,机器人能够更好地规划执行序列,并基于已有的知识生成符合常识的行为。目前也有很多关于“空间智能”的讨论,也是与语义理解密切相关。
但是在当前的水平下,大模型通常与机器人的行为执行分离,导致感知与行动之间的协同不足。一方面,大模型不考虑机器人行为的可执行性,例如物体堆放情况下,机器人实际需要先挪开或者推开一些东西才能拿到目标物体,否则直接抓取会导致物体损坏;另一方面目前的视觉语言动作模型(Video-Language-Action Model,VLAM)依赖于大模型识别的准确性,一旦识别不清就会直接导致行为失 败。
此外,大模型在与机器人行为结合构建VLAM时仍面临诸多难点。就目前VLAM表现来看,首先,通用性不够,难以适应多种场景并自主调整;其次,快速迁移能力不足,难以基于过往的经验实现自我进化;此外,在精确性方面,大模型也还有很大的提升空间。
Yi 目前很多公司在人形机器人领域强调双足,你如何看待双足的重要性?
X 当前学界和业界对于人形机器人的定义仍存在争议,主要集中在是否必须具备完整的拟人形态。部分观点认为,只要具备上半身和双臂的形态即可满足大多数作业需求,双腿行走并非必需。例如在工厂环境中,轮式底盘结合双臂的形态可能更为高效,因为它能够兼顾移动灵活性和操作精度。
在我看来,无论是工业生产、家庭护理还是日常服务,双手都是执行任务的核心工具。相比之下,双脚的主要功能在于移动和调节身体高 度。
目前,双足机器人的稳定性弱于轮式机器人。而服务型机器人的核心价值在于作业能力,而非移动方式的拟人化。双足固然使机器人更接近人类形态,但可能牺牲双臂的灵活性和精度。
Yi 你认为机器人的形态更重要还是软件能力更重要?
X 从我的角度来看,软件能力更为关键。在工业领域,我们常常优先提升软件智能,而不一定依赖人形机器人。甚至可以说,未来机器人可能发展出比人形更高效的形态,例如“三头六臂”,以完成更高效的工作。相较于形态,软件能力在提升机器人作业效率方面具有更重要的意义,软件能力是核心驱动力。
Yi 目前市场上的人形机器人身高从1.2米到1.6米都有,机器人身高设计的考量重点是什么?
X 基于作业空间的需求,成人作业高度通常在1.55米至1.75米之间,因此我们团队选择了1.6米这一中间值作为机器人的身高,以更好地适应作业环境和操作要求。在机器人设计中,身高越高,设计和控制的难度也越大。身高增加会导致手臂重量增加,进而影响机器人的运动性能。许多表演型机器人为了吸引眼球,在设计上更注重外观和轻量化,而忽视了实际作业需求。
Yi 机器人产业经历过多轮热潮,你认为本轮热潮与以往相比有何不同?
X 上一轮2012年左右开始的机器人热潮主要由感知技术突破带动。例如2016年左右即时定位与地图构建(SLAM)技术的突破,实现了大范围场景下一致地图的构建,由此推动了移动机器人在工厂、餐饮场所和酒店等场景的应用。同时,AI技术的进步,尤其是深度学习在智能驾驶和人脸识别等领域的应用,也为产业发展提供了强大动力。本轮热潮则是由感知智能转向行为智能。
此外,上一轮热潮中,机器人的关键技术已经在多个场景中得到了验证,进入了产品化阶段;而这一轮热潮中的大多数公司仍处于关键技术的攻坚阶段。
Yi 如何看待机器人走进家庭的前景?
X 相比工业和商业场景,家庭场景对机器人的作业能力提出了更高的要求。家庭机器人面临的两大主要挑战是安全性和成本。以护理机器人为例,需要解决物理交互中的伤害风险,但当前技术难以达到安全保障。此外,高性能人形机器人的成本在短期内难以显著下降,家庭用户的支付意愿也相对有 限。
护理机器人在协助老人时可能会造成意外伤害,这并非危言耸听。已有案例显示,部分护理机器人在作业过程中导致老人骨折的问题。如果是由护工导致类似问题,责任的界定相对容易,然而,当机器人造成伤害时,责任界定变得复杂。
在工厂,工业机器人的工作场景通常与人类保持隔离,协作机器人虽然能够与人类互动,但运行速度也往往被限制,这都是基于安全性的考虑。目前,一些初步的交互式机器人应用(如按摩机器人)仍需要人类在旁边监督,以确保安全。
Yi 随着机器人技术的不断成熟,有人担心机器人会取代人类的工作,你怎么看?
X 机器人技术的进步是工具的进化,其发展将重塑产业结构,而非取代人类。发展机器人技术和产业的目的并非让人类失业。实际上,企业引入机器人的主要原因是为了解决人力短缺问题以及满足对工作质量的高要求,特别是在制造业和护理行业等年轻人不愿涉足的领域,人形机器人可以取代人类从事危险、重复和乏味的工作。
此外,机器人产品的发展成熟会创造出大量新的工作岗位。例如,机器人需要专业的团队来研发、制造、训练和应用。就像汽车的出现带动了维修、清洗等相关行业的发展。因此,我们应该将机器人视为提升工作效率和生活质量的工具,而非威胁就业的竞争对手。
Yi 未来1到3年,你认为机器人行业的主要发展趋势是什么?
X 未来1到3年,具身智能技术将不断深化,行为智能也将逐步提升。初期可能会实现快速任务迁移能力,随后逐渐发展出适应特定场景的通用性,最终朝着自主学习能力迈进。在产业发展方面,我预计在未来3到5年,人形机器人将率先在工业领域实现规模化应 用。