大晓机器人创始人揭秘具身行业融资割裂真相
开篇:迟到的“卷王”,用数据说话
2025年7月,当具身智能赛道早已热得发烫时,大晓机器人(ACE ROBOTICS)才姗姗入场。但谁也没想到,短短一年,它就成了这条赛道上的“卷王”。大晓机器人董事长、商汤科技联合创始人王晓刚,在梳理近半年成果时,一口气聊了10多分钟,从技术到落地,细节满满。
技术层面,大晓发布了具身大脑——世界模型“开悟(Kairos)3.0”,在4项全球具身智能基准测试中斩获SOTA;其开源的Kairos 3.0-4B版本,更是率先实现了在端侧直接驱动具身智能本体。数据侧的创新同样引人注目:大晓提出的“以人为中心”环境式采集方案,将世界模型训练数据量扩展至100万小时,达到传统真机采集模式的10倍。
△Kairos3.0在4个世界模型生成预测具身智能榜单中取得SOTA。图源:大晓机器人
落地进展更是迅猛。半年前,大晓的具身大脑模组A1主要服务于道路巡检的机器狗;如今,这颗“大脑”已经进入酒店、无人零售店、无人物流仓等多个场景。在上海西岸,机器狗巡逻方案早已不是Demo,而是实实在在的日常运营。
△大晓在上海西岸落地的机器狗巡逻方案。图源:大晓机器人
2026年6月15日,大晓机器人官宣完成天使+轮融资,距离上一轮官宣仅隔4个月。本轮投资方阵容豪华,涵盖达晨财智、深创投、上海科创基金、沐曦股份、盛宇投资、复星锐正、华控基金、临港新片区基金、豫资涨泉等,老股东商汤国香资本持续增资,告捷资本担任长期财务顾问。至此,2026年以来,大晓累计融资金额已达数亿美元,并成为具身领域最快成长为独角兽的企业之一。
在单轮融资动辄数亿元的具身赛道,技术竞赛已白热化,场景圈地之战更是悄然打响。清华孵化的“千诀科技”瞄准酒店保洁、商用服务;前华&为车BU首席科学家陈亦伦创立的它石智航聚焦线束装配。王晓刚的判断很清晰:“具身领域的产业链非常长,很难靠一家企业做完所有的事。所以关键在于,怎么撬动更多资源,在整个具身产业链中把握生态位的主导权。”
然而,在落地过程中,王晓刚感受到一个核心痛点:硬件、数据、模型,三者的结合远远不够。海外,Figure、特斯拉等头部企业都在内部打通硬件、数据和模型,以此提高协同效率;而在国内,这套闭环尚未形成。受限于技术成熟度和资源投入压力,不少本体公司对场景落地持谨慎态度;上游数据采集标准不统一,高质量数据供给不足;硬件迭代周期又远长于模型,导致设计难以协同。
大晓的策略是:找到可规模化的落地场景,以及深度合作的本体厂商。王晓刚的规划很清晰:先从广阔的道路巡检和无人物流仓场景入手,再扩展到更复杂、安全性要求更高的C端家庭场景。这样做的好处在于,先在B端场景中收集足够多的数据,提升世界模型能力,同时快速形成可规模化的解决方案,帮助本体厂商进入场景。
找到可复制的场景
智能涌现:今年具身和世界模型是一级市场最火的赛道。相较成立之初,这一轮的融资难度有变化吗?
王晓刚:这个时间点融资的好处是市场有热度、有关注度。但相对的,企业太多,有时投资人看不清每家公司的价值点在哪里。所以我们得付出更多解释成本,帮投资人梳理清楚发展路径和技术思路。
智能涌现:大晓是2025年7月成立的。当时你会觉得入局具身赛道晚了吗?
王晓刚:我们选择这个时间点入局,是因为看到了具身大脑研究范式的变化:原来主流的VLA(视觉-语言-行动)范式存在局限性,缺少对物理世界的结构化理解。世界模型恰好可以解决这个问题。所以在当时入局,有可能实现弯道超车。而且,在技术还不成熟阶段,大家探索技术范式时浪费了不少数据、模型训练等资源。所以去年入局反而能少走弯路,有后发优势。
智能涌现:相对而言,晚入局竞争会更激烈。
王晓刚:具身产业链非常长,很难靠一家企业做完所有事。所以关键在于怎么撬动更多资源,在整个产业链中把握生态位的主导权。去年成立之前,我们和很多具身企业交流后发现,当时企业对进入场景普遍很谨慎。但场景在具身发展中起到关键作用。具身是按场景划分的,只要在一个场景中完成了闭环验证,就很容易全球规模化复制。规模化复制过程中,数据采集和硬件规模能提升好几个数量级。
智能涌现:为什么具身公司不太愿意进入场景?
王晓刚:一方面,技术成熟度还不高;另一方面,解决场景问题涉及大量数据采集和资源投入。加之很多新兴具身公司对行业和场景的理解不够深刻。所以很多公司的态度是:先融钱,等时机成熟再跟进去。但等时机出现时,先机已经被别人占走了。
智能涌现:在技术不成熟阶段,你们怎么和场景中的头部客户谈?
王晓刚:找到技术的边界很重要。根据技术和软硬件成熟度,把现实的边界找清楚。如果进入C端场景,比如L4自动驾驶,技术就不能有边界;但进入B端场景,加上各种可控条件,技术是可以落地的。还得判断:哪些场景能直接解决,哪些通过手段可以解决。最重要的是,这些场景的解决方案必须具备可复制性。如果找到的场景不具备可复制性,做完一个还得定制下一个,就不是好选择。
智能涌现:怎么判断一个场景具不具备可复制性?
王晓刚:举个例子,我们优先深入零售、仓储场景,因为这些业务体系和需求全国都能复制。再比如酒店也是可复制场景,全国这么多酒店,交付的都是同一套巡检、导航机器人和机器狗。
智能涌现:这些场景竞争会更激烈吗?
王晓刚:虽然大家都瞄准这几个场景,但很多企业走得不深。后果就是,成本无法控制,无法边际递减。你可以做个demo炫技,但它不具备规模化的前提条件。
智能涌现:怎样的落地模式才算得上“深入”场景?
王晓刚:首先,需要有紧密合作的生态伙伴。比如在无人零售场景中,我们和商汤生态中的善惠机器人合作,提供无人零售解决方案。善惠会提出成本、续航、节排等要求,在具体复杂场景中给很多技术反馈。这些要求和反馈有助于形成数据闭环,在场景中快速迭代。做完生态伙伴的“前期功课”后,也能知道哪些方案是必要的,哪些可以省却或用其他方案弥补。方案成熟后,再拓展到零售相关其他头部企业,通过规模化降成本。目前大晓能把解决方案成本降低到行业的1/3。
智能涌现:之前你提到大晓落地场景的规划:道路巡检-无人物流-家庭场景。这个顺序背后的考量是什么?
王晓刚:一方面考虑技术实现难度;另一方面遵循先To B后To C的策略。C端场景规则边界不强,存在很多非结构化场景;但B端场景是受控的,能保障安全性。所以在B端积累更多经验后,再走向To C。
△大晓世界模型的家居场景。图源:大晓机器人
世界模型还没有「智能涌现」
智能涌现:创业初期你提出了很多新观点,比如在VLA还是主流范式时选择了世界模型,再比如“以人为中心的数据采集范式”。你怎么判断这套范式是可行的?
王晓刚:大方向上的判断非常确定。首先,VLA与世界模型相比,只有后者这样的生成式模型,才具备智能涌现的能力。所以我们做具身智能,第一天就选了世界模型方向。其次,只有真人的数据,无论是采集效率和规模,还是拟人化的真实性,才能达到训练世界模型的要求。但很多细节是在实践中才逐渐变清晰的。比如做世界模型,一开始主要关注生成能力;但实际场景中,世界模型不光要生成数据,还要控制真机,通过机器人与物理世界交互。这对世界模型的物理智能、空间智能提出了更高要求。所以我们最近发布了开源空间智能通用模型ACE-Brain-0,以及物理3D生成框架PhysX-Omni,来提高世界模型的空间智能和物理智能。
智能涌现:视频生成模型、VLA等都称自己为“世界模型”。你对世界模型的定义是什么?
王晓刚:简单说,世界模型得具备三方面能力:理解、生成、预测。只有同时具备这三个能力,模型才能自我演进、自我纠正、自我进化。为什么大家都说自己是世界模型?因为业界没有针对世界模型的评价体系。比如,缺少对长时序复杂任务执行效果的benchmark。一些所谓的“世界模型”只宣传了自己擅长的东西,但缺失了其他能力。像VLA缺乏生成能力,视频生成模型缺乏对物理和空间的理解能力。
智能涌现:你们内部怎么评测世界模型的能力?
王晓刚:我们正在联合一些学术机构和具身公司,建立一个世界模型benchmark。评测维度包括跨本体的泛化能力、模拟仿真能力,这些维度最终指向衡量模型理解、生成、预测的能力。
智能涌现:大晓的世界模型Kairos最近迭代到了3.0。它的能力类比语言模型处于什么阶段?
王晓刚:还没到GPT3.0。到了GPT3.0阶段,世界模型就能实现智能涌现,也意味着研究范式有较高程度的确定性。目前我们还是按照“理解、生成、预测”三个维度逐步迭代Kairos。最早主要用于视频生成,后面逐渐开始控制真机,相应也要提升对空间和物理属性的理解。
智能涌现:在当下世界模型发展阶段,数据的量、质量、标注,以及后续评测等环节,哪个对模型能力影响最大?
王晓刚:眼下世界模型还在0-1阶段,可供训练的数据本来就很少。所以在这个阶段,数据的量对效果的提升更明显。当训练数据增加10倍、100倍,立刻能看到模型能力的提升。但等到世界模型出现智能涌现,就需要对数据进行精筛和精细化标注。这和大语言模型发展类似。当下世界模型还没有“智能涌现”,所以先要把数据的量铺上去,再反过来解决质量问题。
智能涌现:要实现“智能涌现”,世界模型需要多少训练数据?
王晓刚:我们期待的是千万小时的量级。原来真机采集的数据规模只有10万小时量级,现在用人采集,基本上能达到百万小时。
智能涌现:提升数据采集量级的关键是什么?
王晓刚:还是场景的规模化,所以需要产业方进入。其实对于产业方而言,数据采集也是他们进入具身行业的切入点。因为他们有场景,做数据采集马上就能变&现,产生价值;接着通过训练模型,再引入机器人,也能提高场景效率。
模型、数据、硬件、场景的结合是不够的
智能涌现:如今行业对机器人的一种态度是:买来只能当吉祥物,没有实际用处。
王晓刚:除质量问题外,很重要的一点在于具身公司没有针对特定场景进行深度迭代和打磨。现在的机器人公司,每年不断发布新型号,但这些型号不是针对应用场景迭代的,原有问题没有解决,反而出现新问题。问题不收敛,就会造成返修率增加,机器人工作几百小时就出问题。所以当下机器人的规模化推广面临很大问题。
智能涌现:让具身公司根据场景迭代的解法是什么?
王晓刚:等场景能规模化,硬件能量产,就会倒逼具身公司将资源集中在针对场景的迭代上。
智能涌现:如今行业中还有哪些难题?
王晓刚:首先,今天模型、数据、硬件三者的结合是不够的。基座模型厂商、世界模型公司,还有做数据的公司,大家都各做各的数据采集方案。但未来本体是靠数据驱动的,不是靠真机或物理模型的规则。所以关键问题在于:怎么从人身上采集数据?采集哪些数据去驱动硬件本体?硬件本体怎么设计才能符合人的行为要求?一旦设计过于复杂,人无法做相应动作,将来就没有数据能驱动本体。美国的Figure、特斯拉走的是高度集成、垂直整合的技术路线,把模型、数据、硬件都自己做了,因此内部迭代效率更高。今天我们就要找到一种模式,让三者有比较好的结合。
其次,具身和场景的结合,当下面临很多困境。场景其实是中国的优势,不少下游场景都具备可复制性,未来具身落地速度会很快。但具身想“打穿”场景,需要很多行业Know-How。而不少场景中的产业方又不具备具身方面的知识和技术储备。所以我们需要找到新模式,让硬件、大脑和场景三者强强联合。
智能涌现:什么样的“新模式”?
王晓刚:一方面是和行业头部企业形成战略合作关系。我们背后的商汤有几千家客户,涵盖非常多行业方向。抓住头部客户资源后,我们的数据采集和解决方案就能规模化。另一方面,我们也走访了很多本体厂商,考察他们的设计思路,和他们形成深度合作,帮助他们进入场景。
智能涌现:你多次提到目前本体厂商进入场景不够。这是不是意味着你们作为上游模型厂商,无法得到足够的数据回流?
王晓刚:是的。所以我们还是要和本体厂商充分交流,去走访、探讨他们的技术细节。当下在数采方案上,我们和本体厂商还有很多认知差异。比如我们会让数采团队戴上传感触觉信息的手套,但有的本体厂商关于“手”的设计方案不是人手,而是夹爪或只有三指。这时数采方案就要去兼顾相应设计。
智能涌现:听上去现阶段你们要迁就本体厂商的方案,但你之前提到要让“模型去定义本体”。相较于“本体定义模型”,它有什么好处?
王晓刚:就像我之前说的,未来本体还是得靠数据驱动。如果硬件设计得复杂度很高,未来靠什么数据驱动?而且硬件本体的开发周期很长,不像模型软件可以快速实现。因此硬件需要根据模型的迭代方向去提前布局。谁能在迭代方向上提前思考、提前布局,就能赢得先机。现阶段最好的合作方式就是本体和模型厂商深度绑定。当本体厂商设计下一代新型机器人时,我们也能提前把相应的数采方案、模型方案梳理清楚。
智能涌现:数据采集、模型迭代、场景拓展,当下你怎么给这些业务排优先级?
王晓刚:数据和场景,是比较关键的。因为具身产业链很长,所以需要快速占据一个生态位。所以在这个时间点,我们正在用自己的解决方案,跟地方政府、场景中的头部企业形成紧密合作。这是战略制高点。模型本身还在演进,不一定那么急迫。但做模型又有助于我们去抓住场景中的头部企业,因为我们比硬件本体离数据、离场景近。在迭代模型的过程中,我们还是得抓住场景,而不是闷在实验室里。



