机器人的“班味”,越来越重了
作者: 李明子2025世界机器人大会现场,给人最直观的感受就是,到处都是行走的人形机器人。各家人形机器人不再满足于跳舞炫技,纷纷开始“着手”干活。
机器人做咖啡及冰激凌的展台,被游客围得水泄不通。去年机器人大会上,各家厂商攀比的是“谁的机械手自由度更高”,今年则纷纷推介自家机械手“具体可以解决哪些问题”。
这些仿生灵巧手不仅能拧螺丝、提重物,完成诸多标准化动作,还能给观众按摩,甚至轻松“拿捏”一颗鸡蛋,即便手掌下翻也不会意外掉落,完成多项柔性动作任务。
这些变化无不说明,机器人在“动手改变世界”这件事上更落地了。
“明年就能吃到机械手预制的小龙虾”
今年以来,人形机器人产业化速度加快,对灵巧手的需求和要求也在进一步提高。机械手不仅要精准感知物体性能,还要进行决策,并迅速执行,而实现这一闭环的关键就是触觉传感器。“展会现场,80%—90%的灵巧手厂商、80%以上的机器人厂商,都应用了我们的触觉感知技术。”他山科技CEO马扬介绍。
机器人,或者说具备灵巧手的机器人,已经开始在多个具体场景“干活”了。马扬介绍,首先是一些工业场景的柔性工作。他举例,目前工厂中大部分生产环节已经可以由机器人完成,比如拧螺丝。但一些“精细活儿”,如线缆、线束的插取,将小弹簧压到产品的某个具体位置,此前机器人无法完成。现在,机械手有了触觉能力,有了胜任这些细微的单一动作的可能。一些头部整车厂正在尝试使用机器人来操作。
其次,在影响人类生命健康的危化场景,有了灵巧手的机器人,不但能巡检,还可以进行一些具体操作。在一些人工低效利用的场景,如物流快递领域的终端分拣环节,现在也可以考虑使用机器人。
马扬补充,他山科技今年还在农副产业领域合作了一些有趣的场景,例如农产品的采摘、小龙虾处理。他介绍,小龙虾80%的部分要进行预处理,仅分离虾头、虾尾这一步,湖北某县级市每年就要花费几亿元人力成本来完成。该公司正在训练机械手完成这一工作,到明年小龙虾生产旺季,送上餐桌的小龙虾可能就是机器人处理的。
机器人被推到具体应用场景前,需要大量训练,目前最大的挑战就是训练数据和模型还不够理想。以数据为例,最头疼的就是数据是否可用。目前训练场里主要有两种模式,一是“摇操”,即让真人戴上一些采集设备来完成机器人要学的动作,数据可用性更好,但成本太高,而且搜集过程比人自己干活还累;另一种是人戴着手套做数据采集,这样速度更快,但问题是很难让人手与机械手一一映射,因此采集的通用性较差。
马扬表示,获取数据主要有三重挑战。首先是如何获取数据以及数据通用性问题,其次是数据成本问题,最后是如何将机器人推到真实场景学习。
与视觉数据不同,触觉数据必须是持续的数据,换句话说,必须是一连串动作,而不是一帧帧画面。因此,可以将动作分解训练,最后在模型端整合。如果把一个任务类比为分子,拆解的每一个具体动作就是原子,通过原子学习,最后排列组合成不同的分子,比每次重新学习一个新任务要快得多,从而推动机器人快速运用到人们希望其出现的场景或产业中。
“AI完全不够用”
为什么人形机器人还没有大规模应用,为什么其功能还不够完善?这也是宇树科技创始人王兴兴最常被问及的问题。在2025世界机器人大会主论坛上,王兴兴是媒体关注度最高的“明星”。
他坦言,智能体机器人当前整机硬件发展虽然还不完美,但从技术层面或AI角度来看,硬件是“完全够用的”,人形机器人规模化应用的最大挑战是“AI完全不够用”。他认为,目前智能体AI应用就像ChatGPT诞生前夜,“业界已经发现了类似的方向与技术路线,但还没人把它做出来”。
人形机器人的ChatGPT时刻会是什么样子?假如人形机器人被带到一个陌生的会场,被要求将一瓶水递给某位现场观众,这台机器人不但能听懂指令,自主行动,还能比较顺利地找到这位观众,将水递过去。简言之,人形机器人即便在陌生环境下也能自主完成一些通用指令。王兴兴认为,距离这一时刻的到来,快则1—3年,慢则3—5年。
而目前智能机器人还没达到理想效果,究竟是数据问题,还是模型问题?与业内常见观点不同,王兴兴认为,目前全球范围内对机器人数据问题的关注度过高,而真正的挑战在模型方面。“目前具身智能和机器人的模型架构不够好,也不够统一。”
对于主流的视觉—语言—动作(VLA)模型,王兴兴反而持怀疑态度。“VLA是一个相对傻瓜式的架构。”王兴兴表示,目前VLA模型对真实世界的交互,数据质量还不够。由此产生的一个简单的解决办法是,在VLA模型上加强化学习算法(RL)进行训练,但综合宇树科技的长期实践来看,VLA+RL的方式仍“不够用”,模型架构还需继续升级优化。
去年,OpenAI发布了视频生成模型以后,行业内产生了一个新想法——如果生成一个“整理房间”的视频,是不是可以让视频生成模型直接驱动机器人执行?宇树科技去年就在做这件事。不久前,谷歌发布了全新一代的视频生成模型,同样想实现这样的效果。
“这个路线方向可能比VLA模型的收敛概率更大。但是我没有验证,不敢打包票。”王兴兴同时指出,这一路线的问题是,视频生成模型非常注重视频生成质量,导致对GPU的消耗较大。
在王兴兴看来,目前机器人在跳舞、格斗等动作上已经有了不错的实现效果,但要想进一步提升整体能力,行业还面临着一个很大的问题——机器人领域强化训练的缩放定律(Scaling Law)做得还不够好。举例来说,训练机器人跳一段舞蹈,每增加一个新动作,都要从头开始训练。而理想状态下,机器人学习新动作,理应以此前训练结果为基础,这样才能提升训练的速度和效果。该定律在语言模型上已得到过充分验证,但是在机器人运动控制方面,才刚刚开始探索。
“在AI领域,没有一家大公司能保证只要有足够的人和资源,就能永远保持领先。”王兴兴认为,OpenAI和DeepSeek的发展已经证明,AI领域的创新永远伴随着一些随机性,每家公司和高校都做出了很多贡献,AI与机器人的发展需要全球共创。
他山科技在2017年成立时,最早做具身智能抓取任务方向,初创团队很快发现,当时在手端触觉领域没有好的底层硬件做支撑。因此,从2018年开始,该公司的核心工作调整为做触觉感知方向的芯片。
马扬介绍,他们最初计划寻求与芯片公司合作,但由于多方面因素,最终未能与海外团队达成一致,转而开启自研之路。经过四年时间,他山科技发布了全球首款人工智能触觉感知专用芯片,这成为他山科技在具身智能领域发展的一个重要技术支撑节点。“时至今日,可以自信地说,在让机器人干活这件事上,触觉传感器已经不再是最大卡点。”马扬说。
对灵巧手来说,自由度越高,反而越影响干活。具体而言,手部自由度越高,所需的算力支持就越大,叠加机械部分的综合误差,最终让“干活”成功率大打折扣。

在世界机器人大会展示区,两指、三指夹掌往往比五指手更灵活。但是,这给数据采集带来了新的挑战。“在触觉领域,同形态数据采集的效率更高,人手形成的数据很难迁移到两指、三指夹掌。”马扬说。
模型提供了另一种解题思路。马扬介绍,将大模型拆解成小的模型,然后在时序上重新排列组合,从而提高效率,就像DeepSeek那样,建立起不同层级的模型,然后做模型之间的结合与融合,从而提高效率。
“目前,触觉传感单元只占(机器人)整手制造成本的20%—30%。”马扬介绍,如果在五指手布置触觉传感器,成本通常在千元以上,未来量产后,成本还会继续下降。马扬预测,随着机器人规模应用,单手成本也将降至几千元。
机器人是否会替代人?
宇树科技最新人形机器人R1价格降至3.99万元起。王兴兴表示,“价格下降速度非常快,更小型的机器人会更便宜”。关于未来机器人可能免费普及的问题,他认为:“当机器人真正能干活后,全球对机器人的概念会发生很大改变。”王兴兴预测:“未来几年全行业人形机器人出货量将保持每年翻番,若有技术突破,2到3年内年出货量可能达几十万甚至上百万台。”
“世界机器人大会举办首日,销售额就达到了2000多万元。”这是中国电子学会理事长徐晓兰从北京经济技术开发区管理委员会主任王磊处刚获悉的最新数据,他们预测, 2025世界机器人大会举办期间,仅线下销售总额就要超过亿元。
今年的世界机器人大会展会现场,200余家国内外机器人企业带来了1500余件展品。其中,100余款为首发新品,50家人形机器人整机企业参展,数量创同类展会之最。
“人形机器人不仅能带来新消费,还能催生新产业、扩大就业。”徐晓兰表示,人工智能必须体现在实体终端上,从而产生各种各样的应用和新的产业。
徐晓兰援引相关机构提供的数据,中国人形机器人的产业规模有望在近两年突破200亿元。到2035年,中国工业制造领域对人形机器人的需求大概是1600万台,对应的市场规模将达到1.6万亿元。同时,国内服务领域对人形机器人的需求大概将达到1900万台,对应的市场空间约为1.9万亿元。
据她介绍,中国电子学会还组织遴选出人形机器人十大最具潜力应用场景,包括工业通用操作领域的上下料与转移搬运、汽车制造领域的分拣配料、3C制造领域物料质检等。她表示,人形机器人凭借与人类相似的功能结构和作业能力,能够快速适配当前为人设计的各类场景和工具,深度融入生产环节,在无须颠覆性改造现有产线的情况下实现高效部署,显著降低智能化改造门槛。
另一方面,人形机器人还是应对老龄化社会压力的重要保障。徐晓兰认为,人形机器人凭借高度仿人的肢体操作能力和环境适应能力,可大规模应用于制造业装配、餐饮服务、物流分拣等低技能劳动密集型岗位,有效填补劳动力短缺造成的产能缺口。
她谈及,很多人担心“机器人会替代人”,但忽略了“机器人是设计生产制造出来的,不是生出来的”。因此,在设计端、生产端、应用端、维护端及服务端等全流程,都会带来新的岗位和新的就业。