机器人端水稳定性测评：哪款更靠谱

2026-06-16阅读 0热度 0

人工智能

极佳视界/供图

“机器人到底什么时候才能走进我家，帮我稳稳当当端杯水，甚至做出一桌热乎饭？”——这个念头，大概每隔一阵子就会在大家脑子里冒出来。每一次具身智能机器人登上新闻，这个问题就会被重新翻出来问一遍。

这一次，海淀的企业极佳视界给出了一个颇为不同的答案。不是画饼说“快了”，而是直接甩出一句：“已经在做了。”他们没把机器人关在实验室或工厂里，而是直接送进了真实的家庭场景，让世界模型在柴米油盐中真刀真枪地打磨。这个动作背后，是这家公司对世界模型路线三年如一日的执着。而这一切的起点，得追溯到2023年那两个选择“逆行”的年轻人。

风口上的“逆行者”

2022年冬天，ChatGPT炸开了全球人工智能创业的浪潮。无数人涌向大语言模型赛道，争着让AI变得更“能说会道”。可是在海淀清华科技园的一间办公室里，黄冠和朱政这两个年轻人，却做了个看似“逆行”的决定——他们要让AI“看懂这个世界”。

黄冠，清华大学自动化系博士，曾任地平线视觉感知技术负责人，手里攥着微软亚洲研究院、三星中国研究院的经历，多次带队拿下全球AI比赛冠军。朱政，中科院自动化研究所博士，清华博士后，连续四年入选斯坦福“全球前2%顶尖科学家榜单”，他开发的多摄像头3D目标检测算法已经被多家车企用上了，在多个自动驾驶榜单上排第一。两人师出同门，黄冠是师兄。

面对大语言模型的风口，他们反而铁了心要布局世界模型。“大语言模型当时已经卷得不行了，”朱政回忆，“大厂全冲进去了，创业公司没雄厚资金根本没机会。我们是做计算机视觉出身的，对视觉的理解很深。而且我们意识到一个关键点：光预测未来动作不够，还得像人一样，预判未来世界会变成什么样。”

2023年6月，极佳视界在海淀成立。“极佳”是做到最好，“视界”既是视觉，也是“世界”的谐音。那个时候，“世界模型”这个词对大多数投资人来说还很陌生。但黄冠和朱政心里很笃定：语言模型玩的是数字世界，世界模型玩的是物理世界，后者的影响会深远得多。公司从一开始就把“世界模型是语言模型之后的下一个最重要的事情”写进了基因，也成了国内第一家系统布局世界模型的企业。

这个决定，为三年后这家百亿独角兽的出现埋下了种子。

在虚拟世界里“预演”未来

世界模型到底是什么？朱政给过一个非常接地气的解释：让机器在动手之前，脑袋里先过一遍世界接下来会变成什么样。他拿家里的机器人倒水举例子——普通机器人只会机械执行“拿杯子—倒水”的指令，但具备世界模型的机器人，会在“脑子”里先预演一遍：杯子重心有没有偏？桌面是不是滑的？如果杯子滑落了，它会往哪个方向滚？然后调整好角度，稳稳当当地完成动作。

这种“想象力”的价值，恰恰戳中了物理AI最要命的痛点。真实世界的互动充满不确定性，而“失败”的数据又特别稀缺。人类能从失败中长记性，但机器大多时候只能看到“成功”的数据。极佳视界的解法是——在虚拟世界里搞一个极度逼真的“数字世界模拟器”，让机器人在里面无限试错、反复预演未来、评估风险，直到在真实世界里能从容执行。

在自动驾驶领域，这套玩法正在改变传统的路测模式。以前要测试算法能不能应对“鬼探头”或者暴雪天气，车队得在路上跑大半年。现在好了，在虚拟世界里，可以随心所欲地生成那些现实中占比只有1%的极端危险场景，让算法在里面反复“闯关”。朱政透露：“很多知名车企，都成了我们这套‘模拟考试系统’的用户。”

更具象的突破体现在人形机器人上。过去训练机器人分拣快递，要是在真实世界里硬试，可能还没学会抓取，机器臂就撞坏了。极佳视界的世界模型创造了一个无限逼近真实的“试炼场”，让机器人在虚拟仓库里日夜不停地练。朱政说：“它让机器人不再是照本宣科，而是拥有了举一反三的‘想象力’。”

今年3月，这种“想象力”迎来了全球验证。朱政团队自研的GigaWorld-1世界模型，以62.34分的成绩登顶全球榜首，成为该榜单第一个综合得分突破60分的具身世界模型。开源具身基础模型GigaBrain-0.1，在全球最大规模的真机评测RoboChallenge中也拿了第一，任务成功率领先第二名近10个百分点。世界动作模型GigaWorld-Policy0.1，在家庭场景移动操作权威评测RoboCasa365中同样登顶。极佳视界由此成为横跨世界模型、具身基础模型、世界动作模型三大赛道的全球唯一“三料冠军”。

“世界模型负责生成数据和预测未来，具身基模负责理解与执行。”朱政解释，这种“双脑融合”的混合架构，让机器人在面对长程、复杂的物理任务时，泛化能力更强。

从仓库货架到家庭厨房

技术有没有价值，终究要在物理世界里碰一碰才知道。极佳视界选的第一战场是自动驾驶。他们给车企造的闭环模拟器，把新模型上车前的路测场景从几万个压缩到几千个，九成以上的测试在虚拟世界就完成了，验证周期大幅缩短。

更有说服力的故事发生在物流仓库。“物流包装盒五花八门，纸箱、塑料袋，大小形状都不一样。分拣员每天的工作是翻二维码朝上，然后扫码入库，一个人一分钟处理十来件，干八小时。”朱政介绍，“我们的通用具身机器人MakerH01在这种场景里可以24小时工作，总体效率提升了三倍。”

在朱政的规划里，家庭场景是另一块巨大的蛋糕。不久前，极佳视界发布了国内首个家庭通用机器人品牌“拾光SeeLight”，人形机器人拾光S1同步亮相。“拾光S1能在真实的家庭环境里，胜任长程、复杂、精细的家务——打扫卫生、把洗衣机里的衣服拿出来晾晒、叠好放进衣柜，甚至做一道番茄炒蛋。”朱政说。

他把工业场景比作自动驾驶的L2，家庭场景比作L4。难在哪里？“如果机器人只在实验室和工业场景下待着，根本没法为家庭场景做好准备。”朱政说，“必须在真实的家庭环境里反复迭代，才能为大规模入户做准备。”他透露，团队还在开发“看一遍就会”的能力——比如人演示一遍新菜的做法，机器人就能学会。至于“适量”“少许”这种模糊指令，大模型怎么定义？朱政回答得很干脆：“我们有极其严格的内部测试集。”

估值突破百亿

今年4月，极佳视界完成了一个让业界侧目的“融资加速度”：继3月拿到近十亿元Pre-B轮融资后，4月再获十五亿元B1轮融资，估值突破一百亿元，成了国内第一个世界模型百亿独角兽。近日，又拿到10亿元B2轮融资，加速生产力场景规模化落地。

极佳视界的诞生和成长，始终没离开过海淀这片创新土壤。两人一路深造、一路创业，扎根在这里。“海淀不仅有密集的高校和科研院所，还有懂硬科技的资本，以及政企联动的政策通道。”朱政说，“从项目支持到人才服务，形成了一个完整的接力链条。”

在他看来，海淀最独特的地方不是单一资源有多么丰富，而是这些资源之间发生的“化学反应”——人才、资本、产业环环相扣，让一项技术能迅速走出实验室，跑进真实场景去验证。

“海淀被称为中国人工智能的原点，我们的客户大部分在海淀都有很深的布局。”朱政说，对创业者来说，海淀提供了很好的环境。

回望三年创业路，朱政最大的感触是：如果2023年跟风去做语言模型，2024年跟风去做AI辅助编程，就绝不会有今天这些成绩。选择一条少有人走的路，是一种眼光；把那条路走成通途，则是一场长跑。

极佳视界的“坚守”，体现在技术路线的笃定上。他们选了显式建模的路子——直接预测未来的视频，用大量互联网数据像语言模型一样规模化扩展。这种坚守，也体现在对人才的极致追求上。朱政说，模型公司需要的人才密度很高，对背景、探索欲、好奇心要求都极高。这种坚守，还体现在扎根海淀、与这片土地共同成长的决心上。公司下一步计划把团队规模再翻一番，大部分人才仍会在海淀招募。

站在百亿估值的新起点上，极佳视界的下一步目标已经很清晰。短期，在数据和模型容量、训练方法上继续规模化扩展，尽早找到具身智能或世界模型的“涌现点”，就像早期的语言模型那样。中期，2028年到2030年实现家庭场景下投入产出比转正。长期，2030年左右，通用世界模型可能迎来雏形——一个模型“统领”自动驾驶、具身智能、内容创作等所有场景。

“就像现在的语言模型一样，”朱政说，“一个模型，所有事都能干。通用人工智能不该只停留在屏幕里，而是应该能服务每一个人。”（记者王萌）

来源：北京号
作者: 北京海淀官方发布

机器人端水稳定性测评：哪款更靠谱

风口上的“逆行者”

在虚拟世界里“预演”未来

从仓库货架到家庭厨房

估值突破百亿

相关阅读

最新教程

最新资讯