清华系分布式预测世界模型获数亿元A轮融资,落地十万终端
专注于具身智能世界模型研发的科技企业「千诀科技」,近日完成数亿元A轮融资。本轮由京铭资本领投,山东新动能、山东财金资本、元禾厚望、芯能创投、南创投、英诺天使基金、尚势资本、仁爱集团、玄素投资等多家机构联合参投,涵盖国家级产业基金、地方引导基金、头部市场化VC/PE及资深家族办公室。Maple Pledge枫承资本持续担任公司长期私募股权融资顾问。
本轮资金将重点投入自研世界模型的底层架构设计、核心算法优化以及多场景商业化落地验证。与此同时,团队将加速扩充高水平算法研发与工程交付团队,从模型训练到终端部署,强化全链路产品化能力。
千诀科技成立于2023年6月,核心团队源自清华大学类脑计算研究中心,长期深耕具身智能领域的决策推理与规划大模型。目标明确:突破传统机器人任务执行的静态预设限制,让机器人能够主动感知、理解并闭环作业于动态环境。
“世界模型”正成为具身智能迈向通用人工智能的关键跃迁路径,也是AI真正融入物理世界的基础设施。卷积神经网络奠基人Yann LeCun率先系统提出世界模型理论框架,其创立的AMI团队持续在抽象表征空间建模、物理规律建模和未来状态预测等方向探索,为行业奠定了重要方法论基础。
从因果推演到空间认知,从高保真物理仿真到生成式时序建模,围绕不同技术路线与理论根基的研究正在多条线路上并进。这条赛道尚未收敛,边界仍在快速延展。所有探索者都在回答一个根本性命题:如何让机器不仅看见世界,更能理解世界、预判世界、适应世界。
在主流生成式范式中,典型路径是通过像素级重建来预测下一帧图像。但千诀科技CTO章天任指出,这个路径存在一个常被忽略却影响深远的问题——特征污染。
“真实物理场景的图像信息维度极高,包含大量与任务无关的冗余信号,比如光照变化、材质纹理、背景干扰。”章天任解释道,“为了追求像素级重构精度,模型被迫将有效语义特征与噪声信息强耦合压缩,导致内部表征失焦。它确实能从海量数据中提取泛化性特征,但这些特征中混杂了大量非物理本质的干扰项。”
这种污染直接削弱了模型对物理规律的建模能力。世界模型的本质目标,是让AI学会符合自然法则的状态演化预测,而不仅仅是拟合视觉表象。一旦特征被污染,模型就很难剥离出稳定的因果结构与物理不变量,泛化性与鲁棒性也会因此受限。
“人类观察图像时,并不会平等地关注每个像素,而是本能地聚焦于与当前任务强相关的区域。”章天任指出,“而生成式模型更接近‘复刻表象’,离真正的‘理解世界’还有距离。”
针对生成式路线在特征解耦上的天然瓶颈,预测式世界模型提供了一条更具物理一致性的替代路径。它的核心逻辑不是还原画面细节,而是建模物理状态在低维抽象空间中的演化轨迹。
千诀科技CEO高海川以运动场景为例说明差异:“人在击球时,大脑不会逐帧渲染球体高清影像,而是基于经验与直觉,直接预判其运动轨迹与落点。这种预测不依赖像素,只依赖对重力、摩擦、碰撞等物理规律的内化建模。人类不可能靠想象完整画面去打球——既来不及,也不稳定。”
这一原理同样适用于具身智能。机器人执行任务所需的核心能力,不是“未来画面长什么样”的视觉幻想,而是“下一状态应如何演化”的精准预判。预测式模型的输出不是视频帧序列,而是可直接映射为动作指令或路径规划的低维状态向量,从而规避像素重建带来的算力开销与特征污染双重桎梏。
在此基础上,千诀科技进一步提出了分布式预测架构。这个架构借鉴了人脑功能分区机制:不同模块各司其职,高连接度区域内部协同紧密,跨区域间则保持相对解耦与独立演化。
相比传统的“全量融合压缩”范式,分布式架构先对输入信息进行语义解耦与区域划分,再分域进行特征压缩与状态预测,显著提升了样本利用效率与推理响应速度。“同样一项新任务,从零开始学习可能需要1000组‘状态-动作’样本;而借助高质量抽象表征,100组即可达成相近效果,大幅降低了机器人在陌生环境中所需的示教成本。”章天任表示。
该架构使模型能够在抽象表征空间中学习物理状态的真实演化规律,而非停留在像素级时序关联层面,从而更高效地支撑下游的实时规划与闭环控制。当面对全新作业环境时,机器人能更快建立“因—果”映射关系。这对真实复杂场景的规模化落地来说,尤为关键。
搭载千诀世界模型的机器人在餐厅打工(图源/企业)
在应用架构上,千诀科技采用了“具身大脑”与“具身小脑”解耦设计。世界模型作为统一的感知-预测-规划中枢,不绑定具体执行器形态,只需共享统一感知模态(如RGB-D、IMU、激光雷达等),就能将环境动态变化作为统一数据源进行联合建模。这意味着同一套“大脑”可以快速适配到不同本体平台,显著降低跨硬件迁移门槛,并加速真实场景下的数据飞轮闭环。
据公开信息,千诀科技自研的具身大脑已完成轮式移动底盘、四足机器人、双足人形、无人机及清扫机器人等多类硬件平台的兼容适配。目前已在酒店保洁、商用服务接待、精密室内巡检等实际业务场景中规模化落地,接入终端设备规模达十万台。依托海量终端持续回传的真实交互数据,模型将持续获得闭环反馈与迭代驱动力。
搭载千诀世界模型的机器人在咖啡店自主配送(图源/企业)
以下为硬氪与千诀科技CEO高海川、CTO章天任的访谈实录节选(经适当精简与润色):
硬氪:在开环预测设定下,世界模型的误差会随推理步长呈指数级累积。千诀的预测式架构如何缓解该问题?具身系统中的闭环反馈机制,在抑制误差放大方面能发挥多大作用?
章天任:这个问题需要分三层来看。
第一层是反馈机制的本质差异。视频生成属于纯开环任务,一次性输出数十甚至上百帧,中间没有任何外部校验,误差很容易雪球式放大。而具身任务天然具备闭环属性——我们不会让机器人一次性规划1000步再执行,而是采取“短步预测+即时执行+状态观测+动态修正”的滚动式策略:先预测50步、执行动作、接收新环境状态、再更新后续预测。这种“做—看—调”的循环,正是具身智能区别于纯视觉生成的根本所在,也是误差抑制的第一道防线。
第二层是记忆模块的设计取舍。千诀已在部分平台部署Memory模块,但暂未与视觉感知中心深度耦合。原因在于:闭环反馈本身已构成强约束,大多数现实任务中,显式长时记忆并非刚需。
第三层是“步”的定义粒度。千诀模型支持多尺度预测,“一步”可对应单个底层控制指令,也可映射为完整语义动作(比如连续50个控制周期)。预测步长越粗、语义层级越高,误差累积的概率与幅度就越小。
总体来看,我们认为世界模型当前最大的能力天花板,存在于完全开环的超长程规划场景——比如机器人尚未启动,就要预先规划未来数百步的全部动作。但这种需求在真实工业或服务场景中极为罕见。更自然、更可行的路径,始终是“边做边学、边走边看”,随时响应环境变化。
硬氪:千诀目前已实现十万级终端的规模化部署。在真实客户场景中,有哪些反馈超出早期预期?这些一线洞察又如何反向驱动产品与模型的迭代?
高海川:目前十万台设备都处于真实业务流中运行,客户将其作为生产工具而非实验样机使用,因此反馈高度贴近真实需求。模型训练与落地之间几乎不存在“real-to-real gap”。
搭载千诀世界模型的机器人自主清洁桌面(图源/企业)
市场反馈中有两点显著超出了我们初期判断:
一是用户对响应延迟的敏感度远超想象。不同场景对时延容忍阈值差异极大。生成式模型普遍4秒级响应,在机器人交互中基本不可用。即便千诀预测式模型可在0.5秒内完成端侧推理,但叠加云端传输后整体延迟约1秒,客户仍频繁反馈“卡顿感”。而当我们进一步将端到端延迟压缩到0.5秒,用户体验就出现了质变。这种毫秒级优化带来的满意度提升,有时比模型能力升级更直接、更显著。
二是“主动性”正成为智能体价值跃迁的核心标尺。客户不再满足于机器人被动响应指令,而是期待其具备“眼里有活”的类人意识:主动识别异常、自主触发任务、预判潜在需求。比如在酒店场景中,机器人无需人工指派,就可以自动识别地面污渍并启动清洁流程。这种从“执行工具”到“协作成员”的角色转变,正在重塑用户对智能化的真实定义,也成为千诀产品差异化竞争的关键支点。


