清华系分布式预测世界模型获数亿元A轮融资，落地十万终端

2026-06-12阅读 0热度 0

世界模型

专注于具身智能世界模型研发的科技企业「千诀科技」，近日完成数亿元A轮融资。本轮由京铭资本领投，山东新动能、山东财金资本、元禾厚望、芯能创投、南创投、英诺天使基金、尚势资本、仁爱集团、玄素投资等多家机构联合参投，涵盖国家级产业基金、地方引导基金、头部市场化VC/PE及资深家族办公室。Maple Pledge枫承资本持续担任公司长期私募股权融资顾问。

本轮资金将重点投入自研世界模型的底层架构设计、核心算法优化以及多场景商业化落地验证。与此同时，团队将加速扩充高水平算法研发与工程交付团队，从模型训练到终端部署，强化全链路产品化能力。

千诀科技成立于2023年6月，核心团队源自清华大学类脑计算研究中心，长期深耕具身智能领域的决策推理与规划大模型。目标明确：突破传统机器人任务执行的静态预设限制，让机器人能够主动感知、理解并闭环作业于动态环境。

“世界模型”正成为具身智能迈向通用人工智能的关键跃迁路径，也是AI真正融入物理世界的基础设施。卷积神经网络奠基人Yann LeCun率先系统提出世界模型理论框架，其创立的AMI团队持续在抽象表征空间建模、物理规律建模和未来状态预测等方向探索，为行业奠定了重要方法论基础。

从因果推演到空间认知，从高保真物理仿真到生成式时序建模，围绕不同技术路线与理论根基的研究正在多条线路上并进。这条赛道尚未收敛，边界仍在快速延展。所有探索者都在回答一个根本性命题：如何让机器不仅看见世界，更能理解世界、预判世界、适应世界。

在主流生成式范式中，典型路径是通过像素级重建来预测下一帧图像。但千诀科技CTO章天任指出，这个路径存在一个常被忽略却影响深远的问题——特征污染。

“真实物理场景的图像信息维度极高，包含大量与任务无关的冗余信号，比如光照变化、材质纹理、背景干扰。”章天任解释道，“为了追求像素级重构精度，模型被迫将有效语义特征与噪声信息强耦合压缩，导致内部表征失焦。它确实能从海量数据中提取泛化性特征，但这些特征中混杂了大量非物理本质的干扰项。”

这种污染直接削弱了模型对物理规律的建模能力。世界模型的本质目标，是让AI学会符合自然法则的状态演化预测，而不仅仅是拟合视觉表象。一旦特征被污染，模型就很难剥离出稳定的因果结构与物理不变量，泛化性与鲁棒性也会因此受限。

“人类观察图像时，并不会平等地关注每个像素，而是本能地聚焦于与当前任务强相关的区域。”章天任指出，“而生成式模型更接近‘复刻表象’，离真正的‘理解世界’还有距离。”

针对生成式路线在特征解耦上的天然瓶颈，预测式世界模型提供了一条更具物理一致性的替代路径。它的核心逻辑不是还原画面细节，而是建模物理状态在低维抽象空间中的演化轨迹。

千诀科技CEO高海川以运动场景为例说明差异：“人在击球时，大脑不会逐帧渲染球体高清影像，而是基于经验与直觉，直接预判其运动轨迹与落点。这种预测不依赖像素，只依赖对重力、摩擦、碰撞等物理规律的内化建模。人类不可能靠想象完整画面去打球——既来不及，也不稳定。”

这一原理同样适用于具身智能。机器人执行任务所需的核心能力，不是“未来画面长什么样”的视觉幻想，而是“下一状态应如何演化”的精准预判。预测式模型的输出不是视频帧序列，而是可直接映射为动作指令或路径规划的低维状态向量，从而规避像素重建带来的算力开销与特征污染双重桎梏。

在此基础上，千诀科技进一步提出了分布式预测架构。这个架构借鉴了人脑功能分区机制：不同模块各司其职，高连接度区域内部协同紧密，跨区域间则保持相对解耦与独立演化。

相比传统的“全量融合压缩”范式，分布式架构先对输入信息进行语义解耦与区域划分，再分域进行特征压缩与状态预测，显著提升了样本利用效率与推理响应速度。“同样一项新任务，从零开始学习可能需要1000组‘状态-动作’样本；而借助高质量抽象表征，100组即可达成相近效果，大幅降低了机器人在陌生环境中所需的示教成本。”章天任表示。

该架构使模型能够在抽象表征空间中学习物理状态的真实演化规律，而非停留在像素级时序关联层面，从而更高效地支撑下游的实时规划与闭环控制。当面对全新作业环境时，机器人能更快建立“因—果”映射关系。这对真实复杂场景的规模化落地来说，尤为关键。

搭载千诀世界模型的机器人在餐厅打工（图源/企业）

在应用架构上，千诀科技采用了“具身大脑”与“具身小脑”解耦设计。世界模型作为统一的感知-预测-规划中枢，不绑定具体执行器形态，只需共享统一感知模态（如RGB-D、IMU、激光雷达等），就能将环境动态变化作为统一数据源进行联合建模。这意味着同一套“大脑”可以快速适配到不同本体平台，显著降低跨硬件迁移门槛，并加速真实场景下的数据飞轮闭环。

据公开信息，千诀科技自研的具身大脑已完成轮式移动底盘、四足机器人、双足人形、无人机及清扫机器人等多类硬件平台的兼容适配。目前已在酒店保洁、商用服务接待、精密室内巡检等实际业务场景中规模化落地，接入终端设备规模达十万台。依托海量终端持续回传的真实交互数据，模型将持续获得闭环反馈与迭代驱动力。

搭载千诀世界模型的机器人在咖啡店自主配送（图源/企业）

以下为硬氪与千诀科技CEO高海川、CTO章天任的访谈实录节选（经适当精简与润色）：

硬氪：在开环预测设定下，世界模型的误差会随推理步长呈指数级累积。千诀的预测式架构如何缓解该问题？具身系统中的闭环反馈机制，在抑制误差放大方面能发挥多大作用？

章天任：这个问题需要分三层来看。
第一层是反馈机制的本质差异。视频生成属于纯开环任务，一次性输出数十甚至上百帧，中间没有任何外部校验，误差很容易雪球式放大。而具身任务天然具备闭环属性——我们不会让机器人一次性规划1000步再执行，而是采取“短步预测+即时执行+状态观测+动态修正”的滚动式策略：先预测50步、执行动作、接收新环境状态、再更新后续预测。这种“做—看—调”的循环，正是具身智能区别于纯视觉生成的根本所在，也是误差抑制的第一道防线。

第二层是记忆模块的设计取舍。千诀已在部分平台部署Memory模块，但暂未与视觉感知中心深度耦合。原因在于：闭环反馈本身已构成强约束，大多数现实任务中，显式长时记忆并非刚需。

第三层是“步”的定义粒度。千诀模型支持多尺度预测，“一步”可对应单个底层控制指令，也可映射为完整语义动作（比如连续50个控制周期）。预测步长越粗、语义层级越高，误差累积的概率与幅度就越小。

总体来看，我们认为世界模型当前最大的能力天花板，存在于完全开环的超长程规划场景——比如机器人尚未启动，就要预先规划未来数百步的全部动作。但这种需求在真实工业或服务场景中极为罕见。更自然、更可行的路径，始终是“边做边学、边走边看”，随时响应环境变化。

硬氪：千诀目前已实现十万级终端的规模化部署。在真实客户场景中，有哪些反馈超出早期预期？这些一线洞察又如何反向驱动产品与模型的迭代？

高海川：目前十万台设备都处于真实业务流中运行，客户将其作为生产工具而非实验样机使用，因此反馈高度贴近真实需求。模型训练与落地之间几乎不存在“real-to-real gap”。

搭载千诀世界模型的机器人自主清洁桌面（图源/企业）

市场反馈中有两点显著超出了我们初期判断：

一是用户对响应延迟的敏感度远超想象。不同场景对时延容忍阈值差异极大。生成式模型普遍4秒级响应，在机器人交互中基本不可用。即便千诀预测式模型可在0.5秒内完成端侧推理，但叠加云端传输后整体延迟约1秒，客户仍频繁反馈“卡顿感”。而当我们进一步将端到端延迟压缩到0.5秒，用户体验就出现了质变。这种毫秒级优化带来的满意度提升，有时比模型能力升级更直接、更显著。

二是“主动性”正成为智能体价值跃迁的核心标尺。客户不再满足于机器人被动响应指令，而是期待其具备“眼里有活”的类人意识：主动识别异常、自主触发任务、预判潜在需求。比如在酒店场景中，机器人无需人工指派，就可以自动识别地面污渍并启动清洁流程。这种从“执行工具”到“协作成员”的角色转变，正在重塑用户对智能化的真实定义，也成为千诀产品差异化竞争的关键支点。

清华系分布式预测世界模型获数亿元A轮融资，落地十万终端

相关阅读

最新教程

最新资讯