林俊旸新公司：不卖模型，只卖想象力

2026-06-18阅读 0热度 0

人工智能

前通义千问负责人林俊旸于今年5月组建了一支新团队，公司名称尚未确定，研究方向锁定为“世界模型”与“具身智能”。据最新动态，该公司的估值已快速攀升至20亿美元，腾讯已跟进投入2000万美元。

此前，有人根据其推文推断，认为林俊旸目前聚焦于“预测”——即Next State Prediction，预测下一帧的物理状态变化。

这个回答没错，但缺乏实质内容。

原因在于，当前所有大模型本质上都在进行预测，只不过预测对象是下一个token的内容。

更何况，若仅停留在状态预测层面，OpenAI的视频生成模型Sora也致力于预测不同对象的物理状态。再创办一家公司做类似的事，纯属重复建设。

从研究脉络来看，林俊旸想要交付的产品远比这更深刻——他真正想构建的是“想象力”。

这个概念可以这样理解：AI在执行动作之前，先在内部进行完整的推演模拟。

以机器人举水杯为例：它会在脑中预演抓取时的摩擦力是否会导致打滑，水杯内部是否带电导致危险，以及摔碎后可能造成的后果。

全面评估所有可能性后，再执行动作，这个完整的流程就是“想象力”。

别急着反驳，接下来的内容会彻底讲清背后的逻辑。

林俊旸的技术拼图

先从基础部分开始梳理。林俊旸参与过众多研究，其中最具知名度的当属M6。

M6的全称是Multi-Modality to Multi-Modality Multitask Mega-transformer，即从多模态到多模态、多任务、巨型Transformer。

其核心逻辑是将不同模态与任务整合进统一的大模型框架。该模型不仅要处理纯文本、纯图像等单模态任务，还要应对跨模态任务，以及文本驱动的图像生成。

M6堪称“想象力”的起点。物理世界本身极为复杂：包含文字、图像、声音、空间坐标、物体属性、动作过程及其反馈。人工智能若要真正理解世界，首要任务就是将这些异构信息纳入同个模型进行统一处理。林俊旸早期就意识到，真正值得关注的并非单个任务，而是如何将不同来源、不同形态的经验转化为模型可学习的统一格式。

仅靠框架不够，模型还需具备理解力

框架搭建完成后，关键在于让模型产生真正的理解。这便是Qwen与Qwen-VL的使命。

Qwen大家已经很熟悉。它能编写代码、调用API、使用工具，将复杂目标拆解为多步行动，并根据工具返回的结果实时调整下一步策略。换言之，Qwen赋予模型清晰的行动流程：先理解目标，再选择手段，然后执行，最后根据反馈进行优化。

而Qwen-VL让AI不仅能看，还能指。它不仅能看图说话，还能完成grounding任务：框出图像中的物体、识别图中的文字、回答诸如“图中右下角的红色杯子在哪个位置”这种具有明确指向性的问题。

将两者结合来看，Qwen-VL赋予模型空间定位能力，Qwen赋予其动手操作能力。这相当于让模型从观众席走入赛场。

2026年春节前后，林俊旸参与发表了一篇名为WebWorld的论文。该论文的核心是构建一个模拟网页世界，供AI Agent进行实战训练。它利用超过一百万条真实网页交互数据训练了一个网页模拟器，能够支持三十步以上的长序列模拟，并具备推理与多格式数据处理能力。

当时，WebWorld的模拟质量已能与Gemini-3-Pro持平。更关键的是，使用WebWorld合成数据训练的Qwen3-14B模型，在WebArena基准测试中直接提升了9.2%，性能追平GPT-4o。

而且，该模拟能力还能跨领域泛化至代码、GUI及游戏环境。

为什么要构建模拟世界？因为真实世界的试错成本太高。网页存在加载延迟、访问频率限制以及风控拦截。让Agent在真实网页上试错一千次，可能八百次卡在网络延迟上，剩下两百次中有一半会被视为爬虫封禁。训练本身需要大量多样化的交互经验。既然如此，不如在模型内部再造一个世界。Agent在这个虚拟世界中可以随意试错，零成本，零风险。

这恰恰是“想象力”的本质——为降低真实环境中的风险与成本，预先让机器人在“大脑”内部进行模拟训练。训练充分，才能在实际操作中减少失误。

模式已经确立，接下来需要解决的是：让机器人在脑内训练什么？这就引出了VideoAgentTrek。

VideoAgentTrek的核心是从人类操作视频中自动挖掘Agent可学习的行为轨迹。它从YouTube上采集了三万九千个屏幕录制教程视频——全部是无标注的原始素材——然后通过自动解析，提取出一百五十多万条GUI交互步骤。

这篇论文颠覆了传统的认知逻辑。普通人看到教程，想到的是“跟着学”。而林俊旸看到的则是训练数据。教程视频中隐藏着最精准的操作轨迹：鼠标从哪移到哪、点击了什么按钮、输入了什么文字，所有步骤都是现成的标注。他的思路是将“人演示给机器看”的视频逆向拆解为“机器可学的经验”。一旦这个逻辑成立，数据将取之不尽。每天有无数人在网上录制教程，每一个教程都是一条隐形的训练轨迹。

顺便提一句，这篇论文中还有一个有趣的细节：林俊旸与香港大学的杨俊霖同时出现在作者列表中。

随后是CUA-Gym。

如果让Agent在模拟世界中尝试一百次，却无人告知哪次正确哪次错误，那么这一百次尝试就等于白费。CUA-Gym的作用，就是自动配置一个裁判，自动出题、自动批卷。

缺乏可验证的奖励信号，想象力就只是纯粹的算力消耗。只有引入裁判、评分与复盘机制，模拟中的每一步才会真正产生价值。要将“想象力”落地，就必须建立包含答案、反馈与复盘的系统。

最终，一切都要落实到“执行”环节。于是有了Qwen-VLA与Qwen-RobotWorld。这两篇论文堪称物理世界的双生子。

Qwen-VLA完成了一项关键突破：在Qwen的基础上，引入了一个基于DiT架构的动作解码器，将文本与图像的理解直接映射为连续的动作轨迹。为兼容不同形态的机器人，它还设计了一个机器人描述符机制——更换本体只需更换描述文本，大脑保持不变。效果极为亮眼：在LIBERO上达到97.9%，在Simpler-WidowX上达到73.7%，在真实世界ALOHA实验中实现76.9%的跨分布泛化。

Qwen-RobotWorld则从另一个维度切入，训练了一个语言条件视频世界模型。它利用860万条视频文本数据、两亿多帧画面，涵盖二十多种机器人与五百多种动作类型。该模型能够根据当前观测与一句指令，预测未来会发生的画面。在EWMBench与DreamGen Bench上均排名第一。

将所有研究成果串联起来，“想象力”这一理念实现了从理论到执行的完整闭环，环环相扣。

李飞飞与杨立昆的殊途同归

如果仅以林俊旸的研究为论据，可能显得单薄。但若将李飞飞与杨立昆的研究纳入对比，你会发现一切都清晰起来——每个人构建的世界模型，本质上都是其研究积累的终极融合。

先看AI教母李飞飞。她从ImageNet起步，研究核心始终是“AI如何看见世界”。ImageNet让机器学会识别物体，此后的二十年中，她持续深挖：从识别走向理解，从理解走向生成，从二维迈向三维。

她创立的World Labs，首款产品名为Marble，能让用户从文字、图片或视频直接生成可交互的三维场景。她的世界模型本质上交付的是“空间”——一个AI可以感知、生成、编辑、交互的三维世界。她将这个方向称为“空间智能”，并认为这是语言智能之后的下一个前沿。World Labs于2025年11月推出Marble，2026年2月估值已飙升至50亿美元，融资总额达10亿美元。

杨立昆同样在构建世界模型，但他的世界模型与李飞飞的截然不同——根源在于两人的研究路径差异。

杨立昆从自监督学习出发，其核心执念是让AI不依赖海量标注数据，像人类一样通过观察理解世界。他的JEPA架构不生成像素，而是在潜空间中预测世界的抽象状态变化。V-JEPA 2使用了一百万小时互联网视频进行预训练，再结合不到62小时的机器人视频，就能让Franka机械臂在零样本条件下完成拾取放置任务。2026年3月，他发布了世界模型LeWorldModel，将端到端JEPA的稳定训练简化为仅需两个损失项，1500万参数即可在单张GPU上运行数小时完成规划。

杨立昆的世界模型交付的是基于逻辑推演的认知结构。他要让AI在潜空间中理解世界的演化规律，而非单纯依赖语言与模式记忆。他对世界模型的理解，转化为“AI如何理解所见之物”。例如，眼前有一把椅子，它必须立在地面上才能成立。那么，通过椅子的质量，就能推导出地面提供了多少支撑力。

因此，“想象力”比“世界模型”更贴近林俊旸这家公司的真实命题。世界模型只是工具，真正值钱的能力，是让机器在现实世界中减少犯错的可能。

林俊旸新公司：不卖模型，只卖想象力

林俊旸的技术拼图

仅靠框架不够，模型还需具备理解力

李飞飞与杨立昆的殊途同归

相关阅读

最新教程

最新资讯