大晓机器人创始人揭秘具身行业融资割裂真相

2026-06-17阅读 0热度 0

创始人

开篇：迟到的“卷王”，用数据说话

2025年7月，当具身智能赛道早已热得发烫时，大晓机器人（ACE ROBOTICS）才姗姗入场。但谁也没想到，短短一年，它就成了这条赛道上的“卷王”。大晓机器人董事长、商汤科技联合创始人王晓刚，在梳理近半年成果时，一口气聊了10多分钟，从技术到落地，细节满满。

技术层面，大晓发布了具身大脑——世界模型“开悟（Kairos）3.0”，在4项全球具身智能基准测试中斩获SOTA；其开源的Kairos 3.0-4B版本，更是率先实现了在端侧直接驱动具身智能本体。数据侧的创新同样引人注目：大晓提出的“以人为中心”环境式采集方案，将世界模型训练数据量扩展至100万小时，达到传统真机采集模式的10倍。

△Kairos3.0在4个世界模型生成预测具身智能榜单中取得SOTA。图源：大晓机器人

落地进展更是迅猛。半年前，大晓的具身大脑模组A1主要服务于道路巡检的机器狗；如今，这颗“大脑”已经进入酒店、无人零售店、无人物流仓等多个场景。在上海西岸，机器狗巡逻方案早已不是Demo，而是实实在在的日常运营。

△大晓在上海西岸落地的机器狗巡逻方案。图源：大晓机器人

2026年6月15日，大晓机器人官宣完成天使+轮融资，距离上一轮官宣仅隔4个月。本轮投资方阵容豪华，涵盖达晨财智、深创投、上海科创基金、沐曦股份、盛宇投资、复星锐正、华控基金、临港新片区基金、豫资涨泉等，老股东商汤国香资本持续增资，告捷资本担任长期财务顾问。至此，2026年以来，大晓累计融资金额已达数亿美元，并成为具身领域最快成长为独角兽的企业之一。

在单轮融资动辄数亿元的具身赛道，技术竞赛已白热化，场景圈地之战更是悄然打响。清华孵化的“千诀科技”瞄准酒店保洁、商用服务；前华&为车BU首席科学家陈亦伦创立的它石智航聚焦线束装配。王晓刚的判断很清晰：“具身领域的产业链非常长，很难靠一家企业做完所有的事。所以关键在于，怎么撬动更多资源，在整个具身产业链中把握生态位的主导权。”

然而，在落地过程中，王晓刚感受到一个核心痛点：硬件、数据、模型，三者的结合远远不够。海外，Figure、特斯拉等头部企业都在内部打通硬件、数据和模型，以此提高协同效率；而在国内，这套闭环尚未形成。受限于技术成熟度和资源投入压力，不少本体公司对场景落地持谨慎态度；上游数据采集标准不统一，高质量数据供给不足；硬件迭代周期又远长于模型，导致设计难以协同。

大晓的策略是：找到可规模化的落地场景，以及深度合作的本体厂商。王晓刚的规划很清晰：先从广阔的道路巡检和无人物流仓场景入手，再扩展到更复杂、安全性要求更高的C端家庭场景。这样做的好处在于，先在B端场景中收集足够多的数据，提升世界模型能力，同时快速形成可规模化的解决方案，帮助本体厂商进入场景。

找到可复制的场景

智能涌现：今年具身和世界模型是一级市场最火的赛道。相较成立之初，这一轮的融资难度有变化吗？

王晓刚：这个时间点融资的好处是市场有热度、有关注度。但相对的，企业太多，有时投资人看不清每家公司的价值点在哪里。所以我们得付出更多解释成本，帮投资人梳理清楚发展路径和技术思路。

智能涌现：大晓是2025年7月成立的。当时你会觉得入局具身赛道晚了吗？

王晓刚：我们选择这个时间点入局，是因为看到了具身大脑研究范式的变化：原来主流的VLA（视觉-语言-行动）范式存在局限性，缺少对物理世界的结构化理解。世界模型恰好可以解决这个问题。所以在当时入局，有可能实现弯道超车。而且，在技术还不成熟阶段，大家探索技术范式时浪费了不少数据、模型训练等资源。所以去年入局反而能少走弯路，有后发优势。

智能涌现：相对而言，晚入局竞争会更激烈。

王晓刚：具身产业链非常长，很难靠一家企业做完所有事。所以关键在于怎么撬动更多资源，在整个产业链中把握生态位的主导权。去年成立之前，我们和很多具身企业交流后发现，当时企业对进入场景普遍很谨慎。但场景在具身发展中起到关键作用。具身是按场景划分的，只要在一个场景中完成了闭环验证，就很容易全球规模化复制。规模化复制过程中，数据采集和硬件规模能提升好几个数量级。

智能涌现：为什么具身公司不太愿意进入场景？

王晓刚：一方面，技术成熟度还不高；另一方面，解决场景问题涉及大量数据采集和资源投入。加之很多新兴具身公司对行业和场景的理解不够深刻。所以很多公司的态度是：先融钱，等时机成熟再跟进去。但等时机出现时，先机已经被别人占走了。

智能涌现：在技术不成熟阶段，你们怎么和场景中的头部客户谈？

王晓刚：找到技术的边界很重要。根据技术和软硬件成熟度，把现实的边界找清楚。如果进入C端场景，比如L4自动驾驶，技术就不能有边界；但进入B端场景，加上各种可控条件，技术是可以落地的。还得判断：哪些场景能直接解决，哪些通过手段可以解决。最重要的是，这些场景的解决方案必须具备可复制性。如果找到的场景不具备可复制性，做完一个还得定制下一个，就不是好选择。

智能涌现：怎么判断一个场景具不具备可复制性？

王晓刚：举个例子，我们优先深入零售、仓储场景，因为这些业务体系和需求全国都能复制。再比如酒店也是可复制场景，全国这么多酒店，交付的都是同一套巡检、导航机器人和机器狗。

智能涌现：这些场景竞争会更激烈吗？

王晓刚：虽然大家都瞄准这几个场景，但很多企业走得不深。后果就是，成本无法控制，无法边际递减。你可以做个demo炫技，但它不具备规模化的前提条件。

智能涌现：怎样的落地模式才算得上“深入”场景？

王晓刚：首先，需要有紧密合作的生态伙伴。比如在无人零售场景中，我们和商汤生态中的善惠机器人合作，提供无人零售解决方案。善惠会提出成本、续航、节排等要求，在具体复杂场景中给很多技术反馈。这些要求和反馈有助于形成数据闭环，在场景中快速迭代。做完生态伙伴的“前期功课”后，也能知道哪些方案是必要的，哪些可以省却或用其他方案弥补。方案成熟后，再拓展到零售相关其他头部企业，通过规模化降成本。目前大晓能把解决方案成本降低到行业的1/3。

智能涌现：之前你提到大晓落地场景的规划：道路巡检-无人物流-家庭场景。这个顺序背后的考量是什么？

王晓刚：一方面考虑技术实现难度；另一方面遵循先To B后To C的策略。C端场景规则边界不强，存在很多非结构化场景；但B端场景是受控的，能保障安全性。所以在B端积累更多经验后，再走向To C。

△大晓世界模型的家居场景。图源：大晓机器人

世界模型还没有「智能涌现」

智能涌现：创业初期你提出了很多新观点，比如在VLA还是主流范式时选择了世界模型，再比如“以人为中心的数据采集范式”。你怎么判断这套范式是可行的？

王晓刚：大方向上的判断非常确定。首先，VLA与世界模型相比，只有后者这样的生成式模型，才具备智能涌现的能力。所以我们做具身智能，第一天就选了世界模型方向。其次，只有真人的数据，无论是采集效率和规模，还是拟人化的真实性，才能达到训练世界模型的要求。但很多细节是在实践中才逐渐变清晰的。比如做世界模型，一开始主要关注生成能力；但实际场景中，世界模型不光要生成数据，还要控制真机，通过机器人与物理世界交互。这对世界模型的物理智能、空间智能提出了更高要求。所以我们最近发布了开源空间智能通用模型ACE-Brain-0，以及物理3D生成框架PhysX-Omni，来提高世界模型的空间智能和物理智能。

智能涌现：视频生成模型、VLA等都称自己为“世界模型”。你对世界模型的定义是什么？

王晓刚：简单说，世界模型得具备三方面能力：理解、生成、预测。只有同时具备这三个能力，模型才能自我演进、自我纠正、自我进化。为什么大家都说自己是世界模型？因为业界没有针对世界模型的评价体系。比如，缺少对长时序复杂任务执行效果的benchmark。一些所谓的“世界模型”只宣传了自己擅长的东西，但缺失了其他能力。像VLA缺乏生成能力，视频生成模型缺乏对物理和空间的理解能力。

智能涌现：你们内部怎么评测世界模型的能力？

王晓刚：我们正在联合一些学术机构和具身公司，建立一个世界模型benchmark。评测维度包括跨本体的泛化能力、模拟仿真能力，这些维度最终指向衡量模型理解、生成、预测的能力。

智能涌现：大晓的世界模型Kairos最近迭代到了3.0。它的能力类比语言模型处于什么阶段？

王晓刚：还没到GPT3.0。到了GPT3.0阶段，世界模型就能实现智能涌现，也意味着研究范式有较高程度的确定性。目前我们还是按照“理解、生成、预测”三个维度逐步迭代Kairos。最早主要用于视频生成，后面逐渐开始控制真机，相应也要提升对空间和物理属性的理解。

智能涌现：在当下世界模型发展阶段，数据的量、质量、标注，以及后续评测等环节，哪个对模型能力影响最大？

王晓刚：眼下世界模型还在0-1阶段，可供训练的数据本来就很少。所以在这个阶段，数据的量对效果的提升更明显。当训练数据增加10倍、100倍，立刻能看到模型能力的提升。但等到世界模型出现智能涌现，就需要对数据进行精筛和精细化标注。这和大语言模型发展类似。当下世界模型还没有“智能涌现”，所以先要把数据的量铺上去，再反过来解决质量问题。

智能涌现：要实现“智能涌现”，世界模型需要多少训练数据？

王晓刚：我们期待的是千万小时的量级。原来真机采集的数据规模只有10万小时量级，现在用人采集，基本上能达到百万小时。

智能涌现：提升数据采集量级的关键是什么？

王晓刚：还是场景的规模化，所以需要产业方进入。其实对于产业方而言，数据采集也是他们进入具身行业的切入点。因为他们有场景，做数据采集马上就能变&现，产生价值；接着通过训练模型，再引入机器人，也能提高场景效率。

模型、数据、硬件、场景的结合是不够的

智能涌现：如今行业对机器人的一种态度是：买来只能当吉祥物，没有实际用处。

王晓刚：除质量问题外，很重要的一点在于具身公司没有针对特定场景进行深度迭代和打磨。现在的机器人公司，每年不断发布新型号，但这些型号不是针对应用场景迭代的，原有问题没有解决，反而出现新问题。问题不收敛，就会造成返修率增加，机器人工作几百小时就出问题。所以当下机器人的规模化推广面临很大问题。

智能涌现：让具身公司根据场景迭代的解法是什么？

王晓刚：等场景能规模化，硬件能量产，就会倒逼具身公司将资源集中在针对场景的迭代上。

智能涌现：如今行业中还有哪些难题？

王晓刚：首先，今天模型、数据、硬件三者的结合是不够的。基座模型厂商、世界模型公司，还有做数据的公司，大家都各做各的数据采集方案。但未来本体是靠数据驱动的，不是靠真机或物理模型的规则。所以关键问题在于：怎么从人身上采集数据？采集哪些数据去驱动硬件本体？硬件本体怎么设计才能符合人的行为要求？一旦设计过于复杂，人无法做相应动作，将来就没有数据能驱动本体。美国的Figure、特斯拉走的是高度集成、垂直整合的技术路线，把模型、数据、硬件都自己做了，因此内部迭代效率更高。今天我们就要找到一种模式，让三者有比较好的结合。

其次，具身和场景的结合，当下面临很多困境。场景其实是中国的优势，不少下游场景都具备可复制性，未来具身落地速度会很快。但具身想“打穿”场景，需要很多行业Know-How。而不少场景中的产业方又不具备具身方面的知识和技术储备。所以我们需要找到新模式，让硬件、大脑和场景三者强强联合。

智能涌现：什么样的“新模式”？

王晓刚：一方面是和行业头部企业形成战略合作关系。我们背后的商汤有几千家客户，涵盖非常多行业方向。抓住头部客户资源后，我们的数据采集和解决方案就能规模化。另一方面，我们也走访了很多本体厂商，考察他们的设计思路，和他们形成深度合作，帮助他们进入场景。

智能涌现：你多次提到目前本体厂商进入场景不够。这是不是意味着你们作为上游模型厂商，无法得到足够的数据回流？

王晓刚：是的。所以我们还是要和本体厂商充分交流，去走访、探讨他们的技术细节。当下在数采方案上，我们和本体厂商还有很多认知差异。比如我们会让数采团队戴上传感触觉信息的手套，但有的本体厂商关于“手”的设计方案不是人手，而是夹爪或只有三指。这时数采方案就要去兼顾相应设计。

智能涌现：听上去现阶段你们要迁就本体厂商的方案，但你之前提到要让“模型去定义本体”。相较于“本体定义模型”，它有什么好处？

王晓刚：就像我之前说的，未来本体还是得靠数据驱动。如果硬件设计得复杂度很高，未来靠什么数据驱动？而且硬件本体的开发周期很长，不像模型软件可以快速实现。因此硬件需要根据模型的迭代方向去提前布局。谁能在迭代方向上提前思考、提前布局，就能赢得先机。现阶段最好的合作方式就是本体和模型厂商深度绑定。当本体厂商设计下一代新型机器人时，我们也能提前把相应的数采方案、模型方案梳理清楚。

智能涌现：数据采集、模型迭代、场景拓展，当下你怎么给这些业务排优先级？

王晓刚：数据和场景，是比较关键的。因为具身产业链很长，所以需要快速占据一个生态位。所以在这个时间点，我们正在用自己的解决方案，跟地方政府、场景中的头部企业形成紧密合作。这是战略制高点。模型本身还在演进，不一定那么急迫。但做模型又有助于我们去抓住场景中的头部企业，因为我们比硬件本体离数据、离场景近。在迭代模型的过程中，我们还是得抓住场景，而不是闷在实验室里。

大晓机器人创始人揭秘具身行业融资割裂真相

开篇：迟到的“卷王”，用数据说话

找到可复制的场景

世界模型还没有「智能涌现」

模型、数据、硬件、场景的结合是不够的

相关阅读

最新教程

最新资讯