人形机器人的智能觉醒时刻

作者: 陆彦君

4月19日,周六,全球首场人形机器人半程马拉松在北京亦庄举行,天工Ultra率先冲向终点。这个身高1.8米、体重55公斤、全身漆黑的机器人跑出了和人类跑者相似的成绩:2时40分42秒。对比之下,在半个世纪前的1973年,诞生于日本早稻田大学的全球第一款人形机器人WABOT-1,每45秒才能迈出一步。

近两年,人形机器人正在以各种意想不到的方式“刷存在感”:特斯拉2024年的自动驾驶发布会上,其Optimus机器人用饮料招待宾客、和人玩猜拳游戏。宇树科技的人形机器人登上央视蛇年春晚舞台,和舞者一起甩手绢、扭秧歌。这些闯入大众视野的人形机器人似乎在努力证明:科幻电影中的场景即将成真。

它也成了当下国内最热门的创业赛道之一。华为、蔚来、百度、京东、大疆等公司都有高管离职创业,新加盟的研究者则大多具备加州大学伯克利分校、斯坦福、清华、北大等顶尖高校实验室的学术背景。据不完全统计,自2023年至今,中国涌现出58家人形机器人创业公司—这里面还不包括产业链上下游的企业。

相应的,资本市场的热钱也在大笔砸进来。今年3月,成立刚一个月的它石智航凭借1.2亿美元的天使轮融资,创下了行业内天使轮融资纪录。IT桔子的数据显示,2023年至今,人形机器人领域的投资事件累计130起,投资规模平均每年约55亿元人民币。

春节假期过后,投资人争抢宇树科技老股的新闻登上热搜,同时大量以机器人为主题的商业计划书递到了投资人面前。某精品人民币早期风险投资机构的投资人程朗对《第一财经》杂志表示,现在投资不止局限于做人形机器人本体的公司,还会押注模型、数据、硬件、场景等产业链上下游的企业。

然而就在3月底,VC圈的热点制造机,金沙江创投合伙人朱啸虎再次踩准时机炮轰整个行业,称自己正在批量退出人形机器人公司,理由是“市场共识高度集中,但商业化路径并不清晰”—他上一次发表类似言论就在一年前,当时炮轰的对象是大模型行业,他直言“中国大模型公司全没戏”。

从事实来看,2024年全国人形机器人市场的规模是27.6亿元—只有年度投资规模的一半。各个研究机构都描绘了未来5到10年市场规模快速膨胀的美好图景,但并未给出足够精细、具象化的落地场景。

泡沫自然是存在的,不过当我们追溯这一轮投资和创业热潮的根源,就会发现在AI技术的加持下,人形机器人确实在发生质变。强化学习的广泛应用让机器人能够快速学会过去要几周才能掌握的动作;大模型向机器人的技术迁移又极大地提升了后者的自主能力,让人形机器人从“会动”,向“能听懂人话”且“具备思考和规划能力”跃升。

投资从下半身向上半身转移

2024年8月,北京的酷暑未能吓退观众对机器人的热情。在世界机器人大会现场,人形机器人上演“百机大战”,跳舞、弹扬琴、写毛笔字、叠衣服……几乎每个展台边都挤满了观众。如果说2024年的“机器人热”还仅限于技术爱好者圈内,登上春晚舞台的宇树科技的通用人形机器人H1彻底打破了圈层。观众们惊诧于机器人的灵活性,好奇什么时候可以买一台回家替自己干活。

人形机器人的智能觉醒时刻0
灵初智能创始人兼CEO王启斌

这样的憧憬五十多年前就有了。从1980年代弹钢琴的WABOT-2,到2000年本田公司旗下会走路、会跳舞的ASIMO,再到2013年美国波士顿动力公司能翻跟头、手拉脚踹也不倒的Atlas,机器人的行动能力在不断突破。

这也是上一轮机器人发展的主线—做好机器人的下半身。灵初智能创始人兼CEO王启斌在机器人领域深耕多年,他对《第一财经》杂志表示,2016年前后出现的一批机器人公司,能够将一件物品从一处搬运至另一处,专注于对有限物体的操作。这些用于酒店送餐、清洁、仓储物流的机器人,只能在相对封闭的场景里完成任务,智能化水平相对较低。

宇树科技给机器人带来了更高的关注度,但这家公司本质上还是和2016年那一拨机器人公司一样,都只解决了机器人的移动能力,并没有解决机器人上半身尤其是手部的操作能力。其进步之处在于,随着人工智能(AI)的发展,宇树科技采用了强化学习和模仿学习相结合的算法,增强机器人的运动控制能力,直观体现在产品上,就是机器人动作更灵活,更适应复杂地形。宇树科技创始人王兴兴称,2024年年初,宇树科技的H1完成了全球首次纯电驱动人形机器人原地空翻。这是传统算法很难实现的。

宇树科技并非走纯粹A I技术路线的公司,它的火爆仅代表了本轮机器人热潮的一面。另一面对大众来说或许感受不深,却足以振奋机器人行业:随着AI技术与大模型等技术取得突破,机器人的上半身—核心就是大脑—迎来了技术拐点。

这个变化也体现在语言上,近年来“具身智能”这个在这一拨浪潮中诞生的热词,已经隐隐有代替“机器人”的迹象。两个词都指代那些可以与世界交互的人造物理实体,但有着明显不同的价值倾向,前者更强调“大脑软件”的重要性,潜台词是为大脑寻找一个好用的身体以促进软件的进化,后者更侧重物理实体本身。

首个明确提出要为人形机器人升级大脑的人是马斯克,特斯拉快速成熟的自动驾驶技术使他意识到,这种理解、规划、操控的能力完全可以迁移到机器人身体上。2021年,马斯克在特斯拉的AI Day上首次宣布人形机器人Optimus计划,打算将电动车的自动驾驶系统和芯片集成到人形机器人上。当时很多业内人士质疑马斯克在“夸大宣传”。事实上,自动驾驶和人形机器人的底层逻辑是一致的:在无人干预的情况下感知环境、识别物体、自主控制并完成任务。

马斯克曾将电动车类比为“带轮子的机器人”。特斯拉的Optimus就采用了与FSD智能辅助驾驶(特斯拉的“完全自动驾驶系统”)相同的视觉感知方案和神经网络技术,以完成路径规划和物体识别。这也是为何这拨机器人热潮中有大量创业者来自自动驾驶行业。

例如,维他动力的创始成员包括地平线前副总裁、软件平台产品线前总裁余轶南,理想汽车智能驾驶产品前总监赵哲伦,和曾是地平线软件平台总架构师、智驾团队创始成员的宋巍。它石智航董事长李震宇曾任百度智能驾驶事业群总裁,CEO陈亦伦曾任华为自动驾驶CTO。智元机器人合伙人姚卯青曾在Waymo、蔚来汽车担任重要的技术岗位。

不过,虽然人形机器人与自动驾驶技术首个明确提出要为人形机器人升级大脑的人是马斯克,特斯拉快速成熟的自动驾驶技术使他意识到,这种理解、规划、操控的能力完全可以迁移到机器人身体上。2021年,马斯克在特斯拉的AI Day上首次宣布人形机器人Optimus计划,打算将电动车的自动驾驶系统和芯片集成到人形机器人上。当时很多业内人士质疑马斯克在“夸大宣传”。事实上,自动驾驶和人形机器人的底层逻辑是一致的:在无人干预的情况下感知环境、识别物体、自主控制并完成任务。马斯克曾将电动车类比为“带轮子的机器人”。特斯拉的Optimus就采用了与FSD智能辅助驾驶(特斯拉的“完全自动驾驶系统”)相同的视觉感知方案和神经网络技术,以完成路径规划和物体识别。这也是为何这拨机器人热潮中有大量创业者来自自动驾驶行业。

例如,维他动力的创始成员包括地平线前副总裁、软件平台产品线前总裁余轶南,理想汽车智能驾驶产品前总监赵哲伦,和曾是地平线软件平台总架构师、智驾团队创始成员的宋巍。它石智航董事长李震宇曾任百度智能驾驶事业群总裁,CEO陈亦伦曾任华为自动驾驶CTO。智元机器人合伙人姚卯青曾在Waymo、蔚来汽车担任重要的技术岗位。

不过,虽然人形机器人与自动驾驶技术有相通之处,但两者要处理的场景难度却不同。汽车再复杂也是在道路上行驶,而交通网络已经是人类文明塑造出的最结构化、系统化的场景,理想情况下,操控汽车只需要油门、刹车和方向盘。但人形机器人面对的场景就是人类日常生活工作的场景,复杂度和前者完全不是一个量级,这意味着人形机器的大脑需要更加“通用”。

人形机器人的智能觉醒时刻1
近3年,国内人形机器人的投资和创业热潮之下,市场依然处于萌芽阶段

Google率先提出了解决方案,在2022年12月发布并开源了机器人模型RT-1(RoboticsTransformer 1),首次将大模型装载进机器人,机器人在模型的指挥下完成了抓取物体、开关抽屉等700多项复杂操作,准确率达到97%。机器人终于不再只是在单一路线里做重复任务的“呆子”,第一次拥有了通用型“大脑”。

但高准确率的前提是,Google Research团队收集了13万条机器人运行的真实数据,以此为“教材”训练机器人。换言之,机器人只能完成经过训练的任务,一旦任务超过数据集范围,对机器人来说就意味着“考试超纲”。Google 2023年发布的RT-2模型再次有了飞跃性进展:研究员下达“抓取已灭绝动物”的指令后,搭载RT-2的机器人伸出手臂,在一堆玩偶中抓住了恐龙。这表明新模型使机器人具备了推理能力,机器人可以通过思考完成任务。

昂贵的数据

人形机器人的技术突破,并不是将大模型搭载在机器人身上那么简单。大模型通过和用户对话解答问题,训练数据来自互联网。

机器人是和现实世界交互解决问题,需要的数据更多,获取难度也更大。智元机器人(以下简称“智元”)首席科学家罗剑岚在接受《第一财经》杂志采访时表示,大语言模型或多模态(文生图、文生视频等)模型的生成结果仍然只有60%至70%的准确率。这个准确率在二维世界并不会造成多大伤害,但在真实世界,“这种准确率一点用也没有”。

因为机器人每一个失败动作都会产生物理性的后果。没有人可以忍受机器人递来杯子时把咖啡泼在自己脸上,或者清理桌面时把餐具也丢进垃圾桶。机器人需要更高的准确率—罗剑岚给出的数字是99%。而要在70%动作预测准确率的基础上再提升20%到30%,往往比从0到70%更难。

如何获取高质量的数据以完成进一步训练成了行业难题,互联网数据只是冰山一角,还有一个途径是像Google一样,收集真机数据。Google曾联合全球33个学术实验室,推出了涵盖超百万条真实轨迹的数据集OpenX-Embodiment。

效仿这一路径的还有智元,它在2024年9月启用中国首个数据采集工厂,数据采集员通过遥控操作(简称“遥操作”),让机器人通过模仿学习,然后采集数据。这座4000平方米的工厂里涵盖了商超、家庭、工厂等场景,近百名数据采集员拿着遥控设备,“手把手”教机器人工作。当工作人员拿起设备做出“扫码商品”的动作时,机器人也有样学样,扫码了一罐口香糖。人形机器人完成“拿起商品、扫码、装袋、递给客户”的操作,耗时约1分钟,这就是1条数据。一个机器人每天可采集约150条数据,如果人形机器人想完全学会该动作,需要累计收集上万条数据。

“有多少数据就有多少智能,海量的免费文本数据催生了大模型。自动驾驶汽车在路上跑也有很多数据,但对于机器人来说,并没有现成的、免费的高质量数据。我们未来产出的数据规模每周将会是50万条。”智元联合创始人彭志辉说。2024年年底,智元发布了开源数据集,规模比Google的数据集大10倍。

此外,数据量的限制也在倒逼研究者开创新的技术路线,行业内出现了分层模型的趋势,即将一个通用大脑拆解成两个小模型,一个负责理解规划,一个负责执行控制。

2024年12月,灵初智能率先推出了分层端到端模型Psi R0,将视觉-语言-动作模型(Vision-Language-Action,VLA)拆解为视觉-语言模型(Vision Language Model,VLM)和动作执行两个层级。上层负责推理,下层专注机械控制。例如,当机器人清理桌面时,上层相当于机器人的“大脑”,负责判断哪些是要扔掉的垃圾,哪些物品要整理好。当物品抓取失败时,下层充当了“小脑”的角色,会再次尝试抓住物品—动作迅速响应,不再需要上层做缓慢的思考。

经典小说推荐

杂志订阅