机器人端水稳定性测评:哪款更靠谱
“机器人到底什么时候才能走进我家,帮我稳稳当当端杯水,甚至做出一桌热乎饭?”——这个念头,大概每隔一阵子就会在大家脑子里冒出来。每一次具身智能机器人登上新闻,这个问题就会被重新翻出来问一遍。
这一次,海淀的企业极佳视界给出了一个颇为不同的答案。不是画饼说“快了”,而是直接甩出一句:“已经在做了。”他们没把机器人关在实验室或工厂里,而是直接送进了真实的家庭场景,让世界模型在柴米油盐中真刀真枪地打磨。这个动作背后,是这家公司对世界模型路线三年如一日的执着。而这一切的起点,得追溯到2023年那两个选择“逆行”的年轻人。
风口上的“逆行者”
2022年冬天,ChatGPT炸开了全球人工智能创业的浪潮。无数人涌向大语言模型赛道,争着让AI变得更“能说会道”。可是在海淀清华科技园的一间办公室里,黄冠和朱政这两个年轻人,却做了个看似“逆行”的决定——他们要让AI“看懂这个世界”。
黄冠,清华大学自动化系博士,曾任地平线视觉感知技术负责人,手里攥着微软亚洲研究院、三星中国研究院的经历,多次带队拿下全球AI比赛冠军。朱政,中科院自动化研究所博士,清华博士后,连续四年入选斯坦福“全球前2%顶尖科学家榜单”,他开发的多摄像头3D目标检测算法已经被多家车企用上了,在多个自动驾驶榜单上排第一。两人师出同门,黄冠是师兄。
面对大语言模型的风口,他们反而铁了心要布局世界模型。“大语言模型当时已经卷得不行了,”朱政回忆,“大厂全冲进去了,创业公司没雄厚资金根本没机会。我们是做计算机视觉出身的,对视觉的理解很深。而且我们意识到一个关键点:光预测未来动作不够,还得像人一样,预判未来世界会变成什么样。”
2023年6月,极佳视界在海淀成立。“极佳”是做到最好,“视界”既是视觉,也是“世界”的谐音。那个时候,“世界模型”这个词对大多数投资人来说还很陌生。但黄冠和朱政心里很笃定:语言模型玩的是数字世界,世界模型玩的是物理世界,后者的影响会深远得多。公司从一开始就把“世界模型是语言模型之后的下一个最重要的事情”写进了基因,也成了国内第一家系统布局世界模型的企业。
这个决定,为三年后这家百亿独角兽的出现埋下了种子。
在虚拟世界里“预演”未来
世界模型到底是什么?朱政给过一个非常接地气的解释:让机器在动手之前,脑袋里先过一遍世界接下来会变成什么样。他拿家里的机器人倒水举例子——普通机器人只会机械执行“拿杯子—倒水”的指令,但具备世界模型的机器人,会在“脑子”里先预演一遍:杯子重心有没有偏?桌面是不是滑的?如果杯子滑落了,它会往哪个方向滚?然后调整好角度,稳稳当当地完成动作。
这种“想象力”的价值,恰恰戳中了物理AI最要命的痛点。真实世界的互动充满不确定性,而“失败”的数据又特别稀缺。人类能从失败中长记性,但机器大多时候只能看到“成功”的数据。极佳视界的解法是——在虚拟世界里搞一个极度逼真的“数字世界模拟器”,让机器人在里面无限试错、反复预演未来、评估风险,直到在真实世界里能从容执行。
在自动驾驶领域,这套玩法正在改变传统的路测模式。以前要测试算法能不能应对“鬼探头”或者暴雪天气,车队得在路上跑大半年。现在好了,在虚拟世界里,可以随心所欲地生成那些现实中占比只有1%的极端危险场景,让算法在里面反复“闯关”。朱政透露:“很多知名车企,都成了我们这套‘模拟考试系统’的用户。”
更具象的突破体现在人形机器人上。过去训练机器人分拣快递,要是在真实世界里硬试,可能还没学会抓取,机器臂就撞坏了。极佳视界的世界模型创造了一个无限逼近真实的“试炼场”,让机器人在虚拟仓库里日夜不停地练。朱政说:“它让机器人不再是照本宣科,而是拥有了举一反三的‘想象力’。”
今年3月,这种“想象力”迎来了全球验证。朱政团队自研的GigaWorld-1世界模型,以62.34分的成绩登顶全球榜首,成为该榜单第一个综合得分突破60分的具身世界模型。开源具身基础模型GigaBrain-0.1,在全球最大规模的真机评测RoboChallenge中也拿了第一,任务成功率领先第二名近10个百分点。世界动作模型GigaWorld-Policy0.1,在家庭场景移动操作权威评测RoboCasa365中同样登顶。极佳视界由此成为横跨世界模型、具身基础模型、世界动作模型三大赛道的全球唯一“三料冠军”。
“世界模型负责生成数据和预测未来,具身基模负责理解与执行。”朱政解释,这种“双脑融合”的混合架构,让机器人在面对长程、复杂的物理任务时,泛化能力更强。
从仓库货架到家庭厨房
技术有没有价值,终究要在物理世界里碰一碰才知道。极佳视界选的第一战场是自动驾驶。他们给车企造的闭环模拟器,把新模型上车前的路测场景从几万个压缩到几千个,九成以上的测试在虚拟世界就完成了,验证周期大幅缩短。
更有说服力的故事发生在物流仓库。“物流包装盒五花八门,纸箱、塑料袋,大小形状都不一样。分拣员每天的工作是翻二维码朝上,然后扫码入库,一个人一分钟处理十来件,干八小时。”朱政介绍,“我们的通用具身机器人MakerH01在这种场景里可以24小时工作,总体效率提升了三倍。”
在朱政的规划里,家庭场景是另一块巨大的蛋糕。不久前,极佳视界发布了国内首个家庭通用机器人品牌“拾光SeeLight”,人形机器人拾光S1同步亮相。“拾光S1能在真实的家庭环境里,胜任长程、复杂、精细的家务——打扫卫生、把洗衣机里的衣服拿出来晾晒、叠好放进衣柜,甚至做一道番茄炒蛋。”朱政说。
他把工业场景比作自动驾驶的L2,家庭场景比作L4。难在哪里?“如果机器人只在实验室和工业场景下待着,根本没法为家庭场景做好准备。”朱政说,“必须在真实的家庭环境里反复迭代,才能为大规模入户做准备。”他透露,团队还在开发“看一遍就会”的能力——比如人演示一遍新菜的做法,机器人就能学会。至于“适量”“少许”这种模糊指令,大模型怎么定义?朱政回答得很干脆:“我们有极其严格的内部测试集。”
估值突破百亿
今年4月,极佳视界完成了一个让业界侧目的“融资加速度”:继3月拿到近十亿元Pre-B轮融资后,4月再获十五亿元B1轮融资,估值突破一百亿元,成了国内第一个世界模型百亿独角兽。近日,又拿到10亿元B2轮融资,加速生产力场景规模化落地。
极佳视界的诞生和成长,始终没离开过海淀这片创新土壤。两人一路深造、一路创业,扎根在这里。“海淀不仅有密集的高校和科研院所,还有懂硬科技的资本,以及政企联动的政策通道。”朱政说,“从项目支持到人才服务,形成了一个完整的接力链条。”
在他看来,海淀最独特的地方不是单一资源有多么丰富,而是这些资源之间发生的“化学反应”——人才、资本、产业环环相扣,让一项技术能迅速走出实验室,跑进真实场景去验证。
“海淀被称为中国人工智能的原点,我们的客户大部分在海淀都有很深的布局。”朱政说,对创业者来说,海淀提供了很好的环境。
回望三年创业路,朱政最大的感触是:如果2023年跟风去做语言模型,2024年跟风去做AI辅助编程,就绝不会有今天这些成绩。选择一条少有人走的路,是一种眼光;把那条路走成通途,则是一场长跑。
极佳视界的“坚守”,体现在技术路线的笃定上。他们选了显式建模的路子——直接预测未来的视频,用大量互联网数据像语言模型一样规模化扩展。这种坚守,也体现在对人才的极致追求上。朱政说,模型公司需要的人才密度很高,对背景、探索欲、好奇心要求都极高。这种坚守,还体现在扎根海淀、与这片土地共同成长的决心上。公司下一步计划把团队规模再翻一番,大部分人才仍会在海淀招募。
站在百亿估值的新起点上,极佳视界的下一步目标已经很清晰。短期,在数据和模型容量、训练方法上继续规模化扩展,尽早找到具身智能或世界模型的“涌现点”,就像早期的语言模型那样。中期,2028年到2030年实现家庭场景下投入产出比转正。长期,2030年左右,通用世界模型可能迎来雏形——一个模型“统领”自动驾驶、具身智能、内容创作等所有场景。
“就像现在的语言模型一样,”朱政说,“一个模型,所有事都能干。通用人工智能不该只停留在屏幕里,而是应该能服务每一个人。”(记者 王萌)
来源:北京号
作者: 北京海淀官方发布
