林俊旸新公司不卖模型，想象力成新招牌

2026-06-18阅读 0热度 0

其他

最近，AI圈子里有件事很有意思——前通义千问负责人林俊旸，5月份刚拉起了新团队，公司名字还没定，研究方向锁定世界模型和具身智能，估值却已飙到20亿美元。腾讯也跟投了2000万美元。

有人根据林俊旸之前的推考古，说他的技术核心就两个字：预测——Next State Prediction，下一帧状态预测。

这话没错，但基本等于没讲透。

为什么？因为如今所有大模型的底子都是预测——预测下一个token。如果单做状态预测，OpenAI的Sora视频生成模型也在干一模一样的事：推演各个物体的物理状态。你再开家公司做同款，图什么？

直白点，林俊旸真正要卖的东西，比这个深一层——卖的是“想象力”。

拆开说，就是让AI在动手之前，先在“脑子”里把整个任务跑一遍。

举个实例：让机器人去拿一个水杯。它不会直接伸手就抓，而是先在内部模拟——“杯子表面的摩擦系数是多少？机械臂会不会打滑？”“万一杯子带电，我一碰就短路怎么办？”“要是不小心摔了杯子，赔不赔得起？”

把所有可能结果推演一遍，再决定动作策略。这个全过程，就是“想象力”。

听起来有点玄？别急，一个个拆解。

林俊旸的技术蓝图

从最底层说起。

林俊旸经手的研究不少，最标志性的肯定是M6。M6全称Multi-Modality to Multi-Modality Multitask Mega-transformer——多模态到多模态、多任务、巨型Transformer。

核心逻辑很直接：把所有模态、所有任务塞进同一个大模型框架。让模型不止能处理纯文本、纯图像这种单模态任务，还能搞定跨模态任务，甚至做文本引导的图像生成。

M6是“想象力”的原始起点。物理世界本身就杂——文字、图像、声音、空间坐标、物体状态、动作序列、结果反馈，信息形态太多了。AI想理解现实世界，第一步必须把这些异构信息统一进同一个模型框架里处理。林俊旸很早就盯的不是单个任务，而是怎么把不同来源、不同形式的经验，统一转化成模型能学的格式。

光有融合框架不够，还得让模型“看懂”物理世界的语义。于是有了Qwen和Qwen-VL。

Qwen大家已经很熟了——能写代码、调用API、使用工具，把一个目标拆成多步行动，再根据工具返回的结果持续调整下一步。它让模型具备了清晰的动作逻辑：先理解目标，再选手段，然后执行，最后看反馈。

Qwen-VL则往前走了一步，让AI的眼睛不止“看”，还能“定位”。看图说话大家都做，但它还能做grounding——把图像里的物体框出来，读图上的文字，回答“图中右下角的红色杯子在哪个位置”这种空间问题。

把这两块连起来看：Qwen-VL让模型知道物体在哪，Qwen让模型知道怎么动手。相当于把模型从观众席，真正推到了竞技场。

2026年春节前后，林俊旸参与了一篇叫WebWorld的论文。核心是造一个模拟网页环境，让Agent在里面反复练手。论文用超过一百万条真实网页交互数据训练了一个网页模拟器，能支撑三十步以上的长序列模拟，支持推理和多种格式数据。

当时WebWorld的模拟质量已经能跟Gemini-3-Pro打平。而且用WebWorld合成数据训练的Qwen3-14B，在WebArena上直接涨了9.2%，性能追平了GPT-4o。

这套模拟能力还能跨领域迁移——代码、GUI、游戏环境都适用。

为什么费劲造一个模拟世界？因为真实世界太慢了。网页有加载延迟、有访问频率限制、有风控拦截。让Agent在真实网页上试错一千次，可能八百次都卡在网络延迟上，剩下两百次还有一半被当成爬虫封锁。

训练需要的是大规模、多样化的交互经验。那就直接在模型内部再造一个世界，让Agent在这个模拟世界里摔多少跟头都行，零成本，零风险。

这就是“想象力”的底层逻辑——为了降低后续的现实落地风险，先让机器人在“大脑”里做足模拟训练，练熟了再出去干活，少闯祸。

模式有了，接下来该让机器人在脑子里练什么呢？于是诞生了VideoAgentTrek。它从人类操作视频里，自动挖掘出Agent可以直接学习的操作轨迹。这篇论文从YouTube上扒了三万九千个屏幕录制教程视频，全是无标注的原始视频，然后自动解析出一百五十多万条GUI交互步骤。

这个工作的核心思路非常巧妙。一般人看到教程，想到的是“我跟着学”，但林俊旸看到的是“训练数据”。教程视频里藏着最精准的操作轨迹——鼠标从哪移到哪、点了什么按钮、打了什么字，全是天然的标注。他的想法是：怎么把这种“人演示给机器看”的视频，逆向拆成“机器能学的经验”。

这个逻辑一旦跑通，数据就取之不尽。每天都有无数人在网上录教程，每一个教程都是一条隐形的训练轨迹。

再往后，就是CUA-Gym。如果让Agent在模拟世界里做了一百次尝试，但没人告诉它哪次对、哪次错，那这一百次就等于白干。CUA-Gym做的就是自动装上裁判，自动出题，自动批卷。

想象力如果没有像代码那样可以被验证的奖励信号，那就只是纯烧算力。只有有了裁判、有了分数、有了回放，模拟里跑过的每一步才算数。要把“想象力”落地到现实，必须有答案、反馈和复盘的系统。

最后，或者说一切的核心，都要落到“执行”二字。于是有了Qwen-VLA和Qwen-RobotWorld。这两篇论文是物理世界的双生子。

Qwen-VLA在Qwen的基础上加了一个DiT架构的动作解码器，直接把文本和图像的理解，输出为连续的动作轨迹。为了支持不同形态的机器人，还引入了一个机器人描述符机制——换一个身体就换一个描述文本，同一套大脑不变。效果很猛：LIBERO上97.9%，Simpler-WidowX上73.7%，真实世界的ALOHA实验中76.9%的跨分布泛化。

Qwen-RobotWorld则是另一个维度。它训练了一个语言条件视频世界模型，通过860万条视频文本数据、两亿多帧画面，涵盖二十多种机器人和五百多种动作类型。这个模型能根据当前观察和一句指令，预测未来会发生什么画面，在EWMBench和DreamGen Bench上都排到了第一。

把所有这些研究成果串在一起，“想象力”从理念到执行，完成了一个完整的闭环。

李飞飞与杨立昆的路线对照

如果只拿林俊旸的研究来说事，可能还有点单薄。但把李飞飞和杨立昆也拉进来，一切就变得清晰了——每个人做的世界模型，本质上都是他们一生研究成果的终极整合。

先说AI教母李飞飞。她从ImageNet起步，从那时起研究的就是“AI如何看见世界”。ImageNet让机器学会了辨认物体，之后二十年她都在往深处挖——从识别走向理解，从理解走向生成，从二维走向三维。她创立的World Labs，首款产品叫Marble，能让用户从文字、图片或视频直接生成可进入的三维场景。她的世界模型卖的实质上是同一样东西：空间。一个AI可以感知、生成、编辑、交互的三维世界。她管这个方向叫“空间智能”，说它是语言智能之后的下一个前沿。World Labs在2025年11月推出Marble，2026年2月估值就冲到了50亿美元，也融了10亿美元。

杨立昆也在做世界模型，但和李飞飞的世界模型根本上是两个物种，原因在于两人的出发点和核心执念完全不同。

杨立昆从自监督学习出发，他的核心执念是让AI不靠海量标注数据，像人一样通过观察来理解世界。他的JEPA架构不生成像素，转而在潜空间里预测世界的抽象状态变化。V-JEPA 2用了一百万小时互联网视频做预训练，然后加上不到62小时的机器人视频，就能让Franka机械臂在零样本条件下完成拾取放置。

2026年3月，杨立昆发布了世界模型LeWorldModel，把端到端的JEPA稳定训练做到了只用两个损失项，一千五百万参数在一张GPU上跑几个小时就能做规划。

杨立昆的世界模型卖的是基于逻辑推演的认知结构。他要让AI在潜空间里理解世界如何演化，不靠背语言、不靠记模式。他对世界模型的理解，核心是“AI怎么理解看见的东西”。比如一把椅子，它不能凭空出现，它得立在地面上才站得住。通过椅子的质量，就能推演出地面给了多少支撑力。

所以，说“想象力”比“世界模型”更接近林俊旸这家公司的真实命题，其实并不夸张。世界模型只是工具，真正值钱的，是那个让机器少在现实里犯错的能力。

林俊旸新公司不卖模型，想象力成新招牌

林俊旸的技术蓝图

李飞飞与杨立昆的路线对照

相关阅读

最新教程

最新资讯