林俊旸新公司:不卖模型,只卖想象力

2026-06-18阅读 0热度 0
人工智能

前通义千问负责人林俊旸于今年5月组建了一支新团队,公司名称尚未确定,研究方向锁定为“世界模型”与“具身智能”。据最新动态,该公司的估值已快速攀升至20亿美元,腾讯已跟进投入2000万美元。

此前,有人根据其推文推断,认为林俊旸目前聚焦于“预测”——即Next State Prediction,预测下一帧的物理状态变化。

这个回答没错,但缺乏实质内容。

原因在于,当前所有大模型本质上都在进行预测,只不过预测对象是下一个token的内容。

更何况,若仅停留在状态预测层面,OpenAI的视频生成模型Sora也致力于预测不同对象的物理状态。再创办一家公司做类似的事,纯属重复建设。

从研究脉络来看,林俊旸想要交付的产品远比这更深刻——他真正想构建的是“想象力”。

这个概念可以这样理解:AI在执行动作之前,先在内部进行完整的推演模拟。

以机器人举水杯为例:它会在脑中预演抓取时的摩擦力是否会导致打滑,水杯内部是否带电导致危险,以及摔碎后可能造成的后果。

全面评估所有可能性后,再执行动作,这个完整的流程就是“想象力”。

别急着反驳,接下来的内容会彻底讲清背后的逻辑。

林俊旸的技术拼图

先从基础部分开始梳理。林俊旸参与过众多研究,其中最具知名度的当属M6。

M6的全称是Multi-Modality to Multi-Modality Multitask Mega-transformer,即从多模态到多模态、多任务、巨型Transformer。

其核心逻辑是将不同模态与任务整合进统一的大模型框架。该模型不仅要处理纯文本、纯图像等单模态任务,还要应对跨模态任务,以及文本驱动的图像生成。

M6堪称“想象力”的起点。物理世界本身极为复杂:包含文字、图像、声音、空间坐标、物体属性、动作过程及其反馈。人工智能若要真正理解世界,首要任务就是将这些异构信息纳入同个模型进行统一处理。林俊旸早期就意识到,真正值得关注的并非单个任务,而是如何将不同来源、不同形态的经验转化为模型可学习的统一格式。

仅靠框架不够,模型还需具备理解力

框架搭建完成后,关键在于让模型产生真正的理解。这便是Qwen与Qwen-VL的使命。

Qwen大家已经很熟悉。它能编写代码、调用API、使用工具,将复杂目标拆解为多步行动,并根据工具返回的结果实时调整下一步策略。换言之,Qwen赋予模型清晰的行动流程:先理解目标,再选择手段,然后执行,最后根据反馈进行优化。

而Qwen-VL让AI不仅能看,还能指。它不仅能看图说话,还能完成grounding任务:框出图像中的物体、识别图中的文字、回答诸如“图中右下角的红色杯子在哪个位置”这种具有明确指向性的问题。

将两者结合来看,Qwen-VL赋予模型空间定位能力,Qwen赋予其动手操作能力。这相当于让模型从观众席走入赛场。

2026年春节前后,林俊旸参与发表了一篇名为WebWorld的论文。该论文的核心是构建一个模拟网页世界,供AI Agent进行实战训练。它利用超过一百万条真实网页交互数据训练了一个网页模拟器,能够支持三十步以上的长序列模拟,并具备推理与多格式数据处理能力。

当时,WebWorld的模拟质量已能与Gemini-3-Pro持平。更关键的是,使用WebWorld合成数据训练的Qwen3-14B模型,在WebArena基准测试中直接提升了9.2%,性能追平GPT-4o。

而且,该模拟能力还能跨领域泛化至代码、GUI及游戏环境。

为什么要构建模拟世界?因为真实世界的试错成本太高。网页存在加载延迟、访问频率限制以及风控拦截。让Agent在真实网页上试错一千次,可能八百次卡在网络延迟上,剩下两百次中有一半会被视为爬虫封禁。训练本身需要大量多样化的交互经验。既然如此,不如在模型内部再造一个世界。Agent在这个虚拟世界中可以随意试错,零成本,零风险。

这恰恰是“想象力”的本质——为降低真实环境中的风险与成本,预先让机器人在“大脑”内部进行模拟训练。训练充分,才能在实际操作中减少失误。

模式已经确立,接下来需要解决的是:让机器人在脑内训练什么?这就引出了VideoAgentTrek。

VideoAgentTrek的核心是从人类操作视频中自动挖掘Agent可学习的行为轨迹。它从YouTube上采集了三万九千个屏幕录制教程视频——全部是无标注的原始素材——然后通过自动解析,提取出一百五十多万条GUI交互步骤。

这篇论文颠覆了传统的认知逻辑。普通人看到教程,想到的是“跟着学”。而林俊旸看到的则是训练数据。教程视频中隐藏着最精准的操作轨迹:鼠标从哪移到哪、点击了什么按钮、输入了什么文字,所有步骤都是现成的标注。他的思路是将“人演示给机器看”的视频逆向拆解为“机器可学的经验”。一旦这个逻辑成立,数据将取之不尽。每天有无数人在网上录制教程,每一个教程都是一条隐形的训练轨迹。

顺便提一句,这篇论文中还有一个有趣的细节:林俊旸与香港大学的杨俊霖同时出现在作者列表中。

随后是CUA-Gym。

如果让Agent在模拟世界中尝试一百次,却无人告知哪次正确哪次错误,那么这一百次尝试就等于白费。CUA-Gym的作用,就是自动配置一个裁判,自动出题、自动批卷。

缺乏可验证的奖励信号,想象力就只是纯粹的算力消耗。只有引入裁判、评分与复盘机制,模拟中的每一步才会真正产生价值。要将“想象力”落地,就必须建立包含答案、反馈与复盘的系统。

最终,一切都要落实到“执行”环节。于是有了Qwen-VLA与Qwen-RobotWorld。这两篇论文堪称物理世界的双生子。

Qwen-VLA完成了一项关键突破:在Qwen的基础上,引入了一个基于DiT架构的动作解码器,将文本与图像的理解直接映射为连续的动作轨迹。为兼容不同形态的机器人,它还设计了一个机器人描述符机制——更换本体只需更换描述文本,大脑保持不变。效果极为亮眼:在LIBERO上达到97.9%,在Simpler-WidowX上达到73.7%,在真实世界ALOHA实验中实现76.9%的跨分布泛化。

Qwen-RobotWorld则从另一个维度切入,训练了一个语言条件视频世界模型。它利用860万条视频文本数据、两亿多帧画面,涵盖二十多种机器人与五百多种动作类型。该模型能够根据当前观测与一句指令,预测未来会发生的画面。在EWMBench与DreamGen Bench上均排名第一。

将所有研究成果串联起来,“想象力”这一理念实现了从理论到执行的完整闭环,环环相扣。

李飞飞与杨立昆的殊途同归

如果仅以林俊旸的研究为论据,可能显得单薄。但若将李飞飞与杨立昆的研究纳入对比,你会发现一切都清晰起来——每个人构建的世界模型,本质上都是其研究积累的终极融合。

先看AI教母李飞飞。她从ImageNet起步,研究核心始终是“AI如何看见世界”。ImageNet让机器学会识别物体,此后的二十年中,她持续深挖:从识别走向理解,从理解走向生成,从二维迈向三维。

她创立的World Labs,首款产品名为Marble,能让用户从文字、图片或视频直接生成可交互的三维场景。她的世界模型本质上交付的是“空间”——一个AI可以感知、生成、编辑、交互的三维世界。她将这个方向称为“空间智能”,并认为这是语言智能之后的下一个前沿。World Labs于2025年11月推出Marble,2026年2月估值已飙升至50亿美元,融资总额达10亿美元。

杨立昆同样在构建世界模型,但他的世界模型与李飞飞的截然不同——根源在于两人的研究路径差异。

杨立昆从自监督学习出发,其核心执念是让AI不依赖海量标注数据,像人类一样通过观察理解世界。他的JEPA架构不生成像素,而是在潜空间中预测世界的抽象状态变化。V-JEPA 2使用了一百万小时互联网视频进行预训练,再结合不到62小时的机器人视频,就能让Franka机械臂在零样本条件下完成拾取放置任务。2026年3月,他发布了世界模型LeWorldModel,将端到端JEPA的稳定训练简化为仅需两个损失项,1500万参数即可在单张GPU上运行数小时完成规划。

杨立昆的世界模型交付的是基于逻辑推演的认知结构。他要让AI在潜空间中理解世界的演化规律,而非单纯依赖语言与模式记忆。他对世界模型的理解,转化为“AI如何理解所见之物”。例如,眼前有一把椅子,它必须立在地面上才能成立。那么,通过椅子的质量,就能推导出地面提供了多少支撑力。

因此,“想象力”比“世界模型”更贴近林俊旸这家公司的真实命题。世界模型只是工具,真正值钱的能力,是让机器在现实世界中减少犯错的可能。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策