AI长期游戏下半场:腾讯姚顺雨战略解读
6月5日,腾讯云AI产业大会如期举办。主论坛尚未开始,场内已座无虚席,连入口过道都挤满了人。不少参会者透露,此行就是冲着腾讯首席AI科学家姚顺雨来的。
这位前OpenAI研究员于2025年12月正式加入腾讯,出任“CEO/总裁办公室”首席AI科学家,直接向总裁刘炽平汇报,同时兼任AI Infra部与大语言模型部负责人。在大会现场,腾讯集团高级执行副总裁汤道生与姚顺雨展开了一场深度对谈,围绕“AI下半场”分享了行业趋势、模型演化和产品协同的核心判断。
以下是对谈实录(有删减)
AI下半场的定义与选择腾讯的原因
汤道生: 为什么AI下半场会选择来腾讯?你认为AI下半场最重要的是什么?
姚顺雨: 先解释一下“下半场”这个说法——最近感觉它有点被滥用。这个概念是我去年在博客里提出的。AI其实已经发展了几十年,但过去的关键是如何找方法、解决问题。现在方法论已经非常成熟,反而是找问题变得更难了。
举个例子,过去我们发明了AlphaGo,但那套方法只适用于下棋。预训练和后训练出现后,情况完全不同了——它成了通用方法论,能解决各种问题。那难的是什么?是找到值得解决的好问题。
选择加入腾讯,一个重要原因是这里不缺好问题、不缺产品。一方面,好的产品能解答“预训练和后训练要落地在哪儿才能产生价值”;另一方面,环境很关键——如果没有好环境,Agent什么都做不了。最核心的还是context,无论是企业还是个人,模型越来越擅长把复杂输入变成输出,你的竞争壁垒往往就在于是否拥有最原始的输入,而腾讯在这方面优势很强。还有文化原因——我第一次和总办老板们聊天时,最大的印象是大家都非常诚实:哪里做得好、哪里做得不好,直来直去。而且腾讯是建立在trust上,不是靠metric来运转的,这对做AI长期研究很重要。这种低ego、扎实的文化,是打造长期AI组织的关键。
至于AI下半场最重要的——我觉得是在中国建立一个长期的、基于AGI的组织。现在的AI主要由三块构成:Foundation——怎么把预训练和后训练的基础做扎实;Product——怎么让技术真正为人和社会创造价值;Frontier——怎么探索新的研究范式和新机会。最理想的状态是构建一个均衡的三角形组织。做foundation,第一要有充足资源,第二要有正确的做事方式。做产品,则需要好的产品sense和行家。而在中国,今天Frontier探索还不够,所以我希望能把这种前沿探索的精神更多地注入进来。
汤道生: 我们的做事方式和产品理念,其实也是实事求是的。AI赛道是长跑,认知很重要,做得好与不好都得认。这是一场多维度的竞赛,模型在进步,产品形态也在不断丰富,不同场景有不同的需求,未来还是可期待的。
Co-Design:产品与模型的相互成就
汤道生: 你提到模型和产品,产品可以提供环境,为模型输入上下文。我们经常讲Co-Design——怎么把产品和模型紧密结合起来。今天腾讯有元宝、AI搜索、智能客服、CodeBuddy、Workbuddy等等,这些产品对模型依赖很深。你怎么看Co-Design?
姚顺雨: Co-Design的前提是模型本身做得扎实。预训练是相对agnostic的事情,最大的特点是可泛化学习,它的进步能持续提升各种下游任务的价值。而后训练的关键是设立正确的Eval。中国有个不太好的习惯是喜欢刷榜,但更重要的是实事求是——基于产品、基于真实应用来构造更真实的Eval。
另外,要意识到“实用性”的价值远大于刷榜的价值。我们在这方面做了大量工作,与各种产品进行了深度Co-Design,关键是要产生相互信任。LLM时代最大的不同是泛化性——即使只做一个Coding Agent,也需要聊天、搜索、指令遵循、推理等复合能力。
汤道生: 内部Eval和外部榜单有什么区别?
姚顺雨: Benchmark当然有价值,但榜单太容易overfitting了。真实世界的数据能帮我们发现模型的底线问题,预览版的目的就是获取真实反馈。另外,你会对真实的prompt distribution有更深的理解——现实中大家问的问题往往模糊不清,还会不断追问,这能启发训练。甚至可以从这些产品中获得灵感,推动新榜单、新领域。产品和模型相互成就,正在成为越来越重要的AI话题。
产品第一性原理与混元3.0的改进
姚顺雨: 您做过QQ空间、QQ音乐、云到元宝,涵盖toC和toB。您做产品的第一性原理是什么?什么在变,什么没变?
汤道生: 始终不变的是满足用户需求、解决痛点、创造价值。不同时代、不同行业都是如此。变化在于PC和移动时代,产品像“预制菜”,提供固定功能菜单;AI时代是开放式的——用户问什么你不知道,要靠模型理解、推理、调用工具,产品提供工具和环境。连研发流程都在变:今年大部分代码由AI生成,工程师的重心变成了设计,测试左移,而且要对开放式答案做alignment。能力要求变得全面了。
汤道生: 混元Hy3 preview是你在腾讯的首秀。具体来说,混元3.0做了哪些改变?
姚顺雨: 主要三点。第一,重建Infrastructure——预训练和强化学习都包括。第二,改变数据和Eval——如何去定义更真实的问题,丰富数据的taxonomy,提高数据质量,这是永无止境的事。第三,很多决策是taste driven的,没有很清晰的公式。我比较好奇您对Co-Design边界的看法——哪些该模型做,哪些该产品做?
汤道生: Co-Design的边界随着模型能力在变。感受最深的是对齐:产品要解决某个问题,模型需要数据,但数据怎么标注、怎么奖惩、评测认不认同——各方没对齐,产品行为就不可预测。关键是要让多个角色对开放式问题达成一致。
姚顺雨: 最难的是建立信任和同理心。做模型和做产品,目标天然有不一致的地方。有个细节:我们曾派后训练最强骨干去元宝做后训练,当时预训练还没准备好,很多算法同学不理解。但现在看,这个动作让产品团队意识到,模型团队是真心为产品着想的。这个信任基础,对Hy3 preview在元宝上线起到了重要作用。技术可以探讨,最难的反而是信任和换位思考。
汤道生: Token的调用对混元做下一代模型研发,你觉得哪些方面比较重要?
姚顺雨: Agent毫无疑问是所有模型厂商发力的重点。我们的方法可能有几个区别:第一,即使Coding已经是最重要的事,但我们仍然强调体系的全面化。要做好Coding,远远不止需要Coding的数据,还需要聊天、推理、各种各样的数据——因为大模型最重要的就是泛化性。
第二,产品的作用越来越重要。如何利用线上回流,是每个模型厂商都在思考的问题,刚刚积累的大量Co-Design经验变得非常关键。
第三,需要更多想象力。无论是技术演进、产品演进,甚至下一个范式的演进,我们需要做探索性甚至不确定性的工作。
从ReAct到智能体
汤道生: 你是ReAct架构的提出者,博士研究围绕语言智能体。几年前的观点到今天兑现了吗?
姚顺雨: 我重读了自己的博士论文(2019年的《Language Agent: from next token prediction to digital automation》)。那时候GPT2只能做next token prediction,输出不流畅、还有毛刺。我当时有个比较狂野的想象:GPT有一天不止能吐出下一个token,而是能把世界上所有事情全部自动化。当时想得还不够大,我想的是digital automation,但今天看也可能是digital and physical automation。
博士期间主要做了两部分:一是建立Agent方法论,最重要的成果就是ReAct——2022年7月,我第一次把Palm 2 API和Wikipedia API连在一起,让LLM基于网页做多轮问答。那一刻的感觉很像微弱的电灯突然亮了——人类第一次把LLM和互联网连在一起做多轮交互。二是定义了digital automation任务,比如WebShop、InterCode、SWE-bench。
回头看,Agent最重要的就是外部Agent和Coding Agent。我博士论文结尾部分提到了future work——train models for Agent、robust deployment、scientific discovery、help human。很感慨也很幸运,我现在确实在做当时列的这些方向。
Token效率、Agent产品与组织变革
汤道生: 现在大家都在说Token焦虑、Token成本爆发式增长。你怎么看优化Token效率?
姚顺雨: 在中国讨论性价比,不能只看模型架构。第一是performance——更好的模型一次做对,反而更省钱。尤其是今年,简单任务的robustness变得越来越重要。第二是成本控制,中国在这方面领先世界。关键是用更小的模型把更高价值的任务做好,在此基础上做架构创新、脚手架优化,这里面要做的事还很多。
我也很好奇,您是什么时候意识到Agent是一个全新产品机会的?现在怎么看?我们离好用的Agent,瓶颈到底在哪里?
汤道生: 不同场景中,Agent设计需充分发挥模型能力。模型越强,Agent需要承担的中间工作就越少。随着模型能力提升,产品可以更简化,转而提供更多工具、技能和记忆。编码和办公协作等不同场景需要不同的相关信息——关键在于理解场景中哪些内容与当前任务最相关,让模型获取所需信息,从而高效完成任务。
姚顺雨: Workbuddy这些产品背后是小团队快速迭代的成果。您觉得AI时代的研发和组织管理有哪些变化?
汤道生: Workbuddy是非常扁平化的组织,三五个人围绕一个领域攻坚,大量试验,也要包容团队试错。这是做原生AI产品需要的组织形态。另外,工程师把写代码交给了AI,更像是驱动多个Coding Agent的leader——针对产品需求去做研发、开发,同时参与评测、测试,用好AI能力,把质量保证和对齐工作做到前面来。
AI是长期游戏,下半场刚刚开始
汤道生: 很多人说腾讯在AI上慢了。你觉得我们真慢了吗?
姚顺雨: 这应该是我问您的问题。关于AI,有两个判断:第一,AI是一个长期游戏,不是短期窗口。硅谷有些从业者觉得要“赶快赚两年钱退休”,这种心态并不可取。AI才刚刚开始,ChatGPT和Claude Code不会成为仅有的超级应用,未来会持续诞生新的产品机会——今天可能就像70年代PC刚刚诞生的时候。第二,AI会走向多元,而不是单一路径。过去几年行业沿着预训练、后训练、Agent这条主线推进得很清楚,但未来除了Coding Agent,多模态、具身智能等大量新方向正在或即将成形——这个世界还有大量空间没有被填满。
汤道生: 腾讯是多业态公司,有快有慢,有失败有探索。像你说的,这是长跑。我们有丰富的场景和context积累,在长跑中,也请大家多提醒、多提建议、多用我们的产品。
