一年内AI模型吞噬Harness?窄域超智能领先编程数学
“最短在 12 个月内,模型届时已经消化吸收了 Harness 的很大一部分。它会被上游化到模型中,而红利将会转移到其他地方。”
“这些天我花了太多时间在思考 AI 编程上。其他那些具有可验证性的领域,像数学、金融和科学,显然也是你会迅速看到成果的领域。”
“对谷歌来说,成功可能并不意味着‘最大化用户在产品前的眼球停留时间’,而是‘最大化客户的成果’,让他们能做自己想做的事,然后去享受生活、成为他们想成为的人。”
2026年谷歌I/O大会的余温尚在,红杉资本便火速邀请到了谷歌AI Studio和Gemini API的负责人Logan Kilpatrick,聊了聊Agentic AI、AI Coding和世界模型这些最前沿的话题。整个对话信息密度极高,尤其是Logan对行业趋势的判断,颇具前瞻性。
一个核心观点是:他觉得最短一年内,“Harness”这种框架层面的红利就会被大模型本身“消化吸收”。到时候,应用层公司再在Harness上折腾,可能就没什么超额收益了。他甚至提出,行业需要类似“Harness Bench”这样的评估标准,来量化衡量不同模型在不同框架下的适应能力。
关于AI编程,他有个很形象的比喻——现在的水平已经有点接近“窄域超智能”了。通用人工智能(AGI)可能不会一步到位,而是会先出现一堆“参差不齐的垂直超智能”。像编程、数学、金融、科学这些有明确“可验证标准”的领域,可能会率先出现超越人类水平的超级智能。
AI编程能力的提升,让Logan重新定义了自己产品开发的野心水平。他的原话是:“我不能只做这个东西的MVP,我实际上需要再往前走10步,因为技术允许我这么做。” 这背后是一种全新的创新压力——不是担心做不出来,而是担心做出来的东西不够前瞻。
一个有趣的数据是,因为Vibe Coding的存在,谷歌AI Studio的用户在一周多的时间内就开发了35万个安卓应用,其中大部分是个人应用。在他看来,“也许生成式用户界面还离得比较远,但现在为了解决你个人问题而构建软件的想法是非常现实的”。
关于世界模型,他承认有一批很有意思的初创公司正在摸索其中的“脚手架”,试图让世界模型真正落地。而对于谷歌最新推出的Omni模型,他直言视频编辑是当下最好的应用场景,也是该模型迭代的第一个轮次。他之所以欣赏Omni,是因为“它没有改变我,它改变的是周围其他一堆不属于我的部分”。这句话点出了生成式媒体一个很有价值的应用方向:增强人,而非替代人。
此外,他还披露了一个反直觉的事实:根据谷歌自有数据,AI并没有蚕食搜索业务,反而带来了令人难以置信的正向增长。人们搜索得更多了,智能体也在进行大量搜索。原以为是“负和博弈”,结果却是“正和”推动,这很有意思。
对话中还有两个有趣的细节:Logan自己用AI Studio做的第一个安卓应用,居然是一个打理后院植物的园艺工具;而在AI Studio的开发者生态中,最初有20%的用户在开发游戏,如今这个比例被金融产品所占据——看来,人类的终极热情,始终是娱乐和财富。
以下是对这场精彩对谈的深度梳理:
现在谷歌所有产品的主线:Antigra vity AgentHarness
Sundar在I/O大会的开幕演讲中,将当前称为“Agentic Gemini 时代”。对谷歌来说,Agentic AI究竟意味着什么?
在Logan看来,现在已经进入了Gemini 3.5的时代,一个智能体产品与全员智能体化的时代。这个智能体层由Antigra vity AgentHarness驱动,它正在成为贯穿谷歌所有产品的新主线,也是它们现在运行的基础。
回顾历史,在Gemini出现前,谷歌那近百个产品线之间并没有统一的主线。后来Gemini成了主线,所有产品都在使用它。而现在,随着产品逐步重构为“原生智能体产品”,开始真正代表用户行动,Antigra vity再次扮演了这个角色。一条全新的主线正在浮现,这非常有趣。
Antigra vity包含了很多东西:一个核心的IDE、网页端的“智能体优先”体验、CLI和SDK。本质上,它是一个庞大的生态系统,旨在随时随地满足开发者的需求。你完全可以通过Gemini API来使用它,如果你需要一个托管智能体,甚至不需要做任何底层架构工作。
最有趣的一点在于,它不仅仅是一套独立的生态系统,它同时在直接驱动谷歌的其他所有产品。相同的底层框架也在为搜索、Gemini应用、云端以及AI Studio中的智能体功能提供动力。
所以,过去是Gemini API这条主线决定了AI如何融入每个产品。而现在,不仅仅是API,还有这个Coding Harness本身驱动了产品中更多的智能体属性。事实证明,Coding Harness除了在编写代码方面表现极佳之外,也完全可以作为通用的AgentHarness。
当然,AgentHarness和Coding Harness之间有细微差别。通过针对特定场景进行专门化定制,可以压榨出更多的优化空间。AI Studio所使用的AgentHarness针对Vibe Coding的使用场景做了稍微的定制;而Gemini应用使用的智能体框架则针对面向消费者、24小时全天候在线的智能体进行了定制。它们共享一个基础Harness,其中大约80%的内容是相同的,剩下的则针对具体场景进行定制。
智能体化不仅没有蚕食谷歌搜索,反而推动了业务增长
如何看待智能体化对现有业务的“蚕食”?特别是现在谷歌正在更加激进地推进Agentic。
一个常见的担忧是:如果AI能直接为你解答问题,甚至帮你浏览邮件并回复,用户在产品上停留的注意力时长可能会变少。这是否是一种负和博弈?
但实际发生的结果出乎所有人意料:它对搜索业务带来了令人难以置信的“正和”推动。人们搜索得更多了,做得事情也更多了。智能体本身也在进行大量的搜索,从而诞生了一个全新的市场。
虽然世界上人类的总时间有限,但从生态系统价值创造的角度来看,这确实是一个非常积极的正和博弈。至于人类行为层面在3到5年后会如何演变,当技术进一步提升、产品形态可能变得大不相同时,还很难说清楚。
但归根结底,这就是产品的成功所在。正如Logan所说,构建技术的目的是为了让技术能够走出去替你完成工作。对谷歌来说,成功可能不意味着最大化用户眼球停留时间,而是最大化客户的成果,让他们能做自己想做的事,然后去享受生活。未来的道路很可能是朝着最大化客户成果的方向走的。
这引出了一个更深层的问题:未来智能体会如何改变广告的运作方式,以及聚合平台捕获价值的方式?比如搜索引擎优化(SEO)的运作方式,与生成式引擎优化(GEO)之类的新事物直接相关。变革幅度可能并没有人们想象的那么激进,仅仅是因为这些事物是在彼此的基础上叠加并复合发展的。
谷歌全域产品智能体化程度还处于“爬”的阶段
如果用“爬、走、跑”来对智能体化程度进行分级,目前谷歌系列产品处于什么阶段?
答案很明确:现在绝对还处于“爬”的阶段。这在一定程度上是因为谷歌固有的产品张力:拥有几十个用户量超过十亿级别的庞大产品线。尽管有些更接近Labs的体验可能已经接近“走”甚至“跑”的阶段,但就目前绝大多数产品体验而言,绝对更接近“爬”。
这是作为开发被大众广泛使用的产品的管理责任所在。长尾客户们并没有完全准备好让AI直接跑起来替他们处理所有事情,他们依然希望自己坐在驾驶座上,谨慎地迈出第一步。谷歌团队,尤其是搜索团队,在推进这项技术时承担着巨大的责任,必须以一种能够带领用户共同前进的方式来做。
哪些产品最接近“走”的阶段?Gemini应用绝对是其中之一。拥有一个24/7全天候在线的智能体,能够真正地代表你执行一连串操作,是目前最前沿的应用场景之一。此外,Antigra vity是另一个例子,在其中你可以拥有自主的编程智能体,处理成千上万亿的token,并代表你花掉数千美元。这些更偏向前沿探索,同时存在于GDM(谷歌DeepMind)和工程团队的视角中。
长时程智能体至关重要,编程模型是谷歌全业务的催化剂
谷歌最终会拥有1个、2个还是3个用于交互AI的产品入口,还是会拥有成千上万个?
这很大程度上取决于人类消费产品的方式。“模块化”和“产品专业化”有其美妙之处。如果最终得到的是一个替你包揽一切的产品,在默认状态下,使用这个版本本身就需要付出更多的精力。对于绝大多数的长尾用户来说,要让一个通用型产品准确完成他们想做的那件具体事情,最终不得不耗费更多的心理能量和时间。相比之下,有些东西简单点反而很好,比如点击日历应用,它就只显示日历。
这也是为什么像幻灯片这样的应用能存在这么长时间——我们希望信息刚好出现在它应该出现的地方。生成式界面的想法固然酷,但对大脑来说,可能意味着更多的认知负荷。
当与企业界的公司交流时,会发现虽然所有人都在谈论Agentic AI,但他们真正看到智能体发挥作用的唯一地方是“编程智能体”。这是否反映了现状?
这取决于对“发挥作用”的衡量标准。如果试图将非常复杂的任务完全分派给某些模型质量还没有跨越门槛的领域,那确实是事实。但量化这些趋势很重要。真正值得衡量的指标是:一个普通智能体运行或一个普通任务的实际持续时间有多长。
尽管当前整体曲线可能还很低,但已经能看到长期运行任务激增的早期迹象。所有模型实验室都在谈论“我们发布了这款新模型,它完成了长达三天的自主工作”。这种能力正在非常迅速地向上渗透。即便企业在编程之外还没有深刻感受到它,他们也即将在今年感受到,因为大量其他应用场景的体验同样在迎来大幅提升。
因此,“长时程智能体”确实是一个至关重要的KPI。对于DeepMind来说,这是一个由不同押注组成的庞大组合。而专门的编程智能体在进程中举足轻重——如果你拥有一个卓越的编程模型,它会成为你业务中其他所有部分的催化剂。
垂直超智能前瞻:将在编程、数学、金融、科学等“可验证性”领域率先实现
如果你能拥有一个可以通过代码构建任何东西的系统,人类就无法在同一水平上竞争,那就是窄域超智能。现在是否已经达到那个点了?
是的,编程现在实在太厉害了,确实有点像窄域超智能。但这是好事:它感觉像是人类开发者能力的翻跟斗,而不是替代者。作为一个人类开发者,我感觉自己在世界上有了更多的自主权,可以挑战更有野心的课题。以前会想“啊,如果能实现该多好”,现在却在想“大概可以把它做得更有野心”。这迫使我重新设定自己的野心水平,感觉不能只做MVP,而需要往前走10步。
这也会发生在其他垂直超级智能领域。在那之前,我们会先得到一堆“参差不齐的超级智能”。
那么,接下来哪些垂直领域会率先实现?
答案是那些具有更好“可验证性”的领域。比如数学、金融,科学也可能是一个非常有趣的领域。这些领域有明确的标准,验证成果相对容易,因此你会更快看到成果。这也符合人们的期望:你希望技术在一开始就能产生对世界真正有益、有影响力的积极事情,以便大家理解这项技术的潜在积极影响。
人们当下在构建什么:金融和游戏产品成为开发主流
去年10月,Logan曾发推预测:“到2025年底,每个人都将能够通过Vibe Coding来制作电子游戏。” 这个预测成真了吗?
感觉很接近了。显然不是AAA级大作,还做不出下一个《使命召唤》或《侠盗猎车手》。但比以往任何时候都更接近了。游戏开发需要构建很多其他类似模型的东西,比如Three.js让很多以前不可能的事情变成了可能,但仍然存在很多编程智能体无法解决的粗糙边缘,比如精灵图生成。因此需要一些编排层和工具链来实现它。
在AI Studio中,确实能看到人们在制作很多电子游戏。根据早期数据,大约有20%的用户制作的应用是游戏。但如今,最受欢迎的类别已经变成了金融,同样占据了大约20%的比例。这可能与加密货币有关,但也说明人们在金融领域做了很多事情。此外,个人生产力工具和大量的生成式媒体内容也相当受欢迎。看来,人类最有热情的,确实是娱乐和财富。
至于“街上随便拉来一个有绝妙想法的素人,就能通过Vibe Coding做出一个非常好玩的游戏”这个目标,Logan认为今年就可以实现。模型能力已经让这成为了可能。这不像是模型质量上的差距,更像是一个知道如何构建伟大游戏的人,在以正确的方式搭建脚手架。现在就已经有人在做这件事了。
初创公司的攻坚方向:弄清楚世界模型落地的脚手架
Vibe Coding出来的电子游戏,更可能是基于“游戏引擎 + 编码智能体”,还是更可能基于“世界模型”?
编码智能体看起来仍会像某种世界模型类型的系统。但你需要让世界模型对真实事物有用,就需要“脚手架”。现在有一批很有意思的初创公司在做这件事,去弄清楚世界模型的脚手架是什么,把它们从非常开放的空间中拉出来,以切实的方式落地。但以目前世界模型的固有特质来看,它实际上并不适合目前形式的游戏。至少在短期内,从游戏的角度来看,“编码智能体 + 某种游戏引擎”会让你看到更多的超额收益。
世界模型的定义正在变得模糊。以Omni为例,它在I/O大会上发布,可以输入任何内容,生成任何输出。从技术上它对世界有极高的理解,堪称一个世界模型。但从架构的角度来看,它与过去不同,更接近某些可能更具扩展性的方式。从历史上看,运行传统的在线世界模型非常昂贵,难以扩展。
更深一层看,Omni是一个单一的模型,而不是把请求路由到一堆不同的模型。它是一个真正的单体Omni模型,从目前效果最好的视频编辑应用场景开始。虽然它在其他功能上也能运转,但质量还没达到业界顶尖水平,所以还没推出来。这也只是Omni模型转动的第一个轮次,未来将会有能力强大得多的版本。
Logan特别提到,他喜欢Omni的原因在于:它没有改变“人”本身,而是改变了周围的其他东西。“我并没有选择我们周围的这些布景。我们说的话可以保持不变,而你可以改变这些非个人的部分,用它们做一些更有趣的事情。” 这感觉像是生成式媒体应该有的版本,而不是一堆AI数字人分身。
AI Studio数据:一周多时间产出35万款安卓应用,个人开发需求爆发
AI Studio推出了让人们可以Vibe Coding Android应用的功能。目前进展如何?
AI Studio的一个战略目标是:如何把谷歌生态系统的其他部分引入进来,让人们不需要穿梭于谷歌九个不同的UI之间就能接触到它们。Android就是一个绝佳的例子。它赋予了那些原本不会开发Android应用的人这种能力。Logan自己就在AI Studio里构建了他的第一个Android应用——一个关于后院植物的园艺工具。
目前看到的更宏观的数据是:自上周以来,在AI Studio中已经构建了大约35万个Android应用。这太疯狂了。这35万个应用可能是以前根本没人会去构建的,其中很多是个人应用。这印证了一个判断:也许生成式用户界面还离得比较远,但现在为了解决你个人问题而构建软件的想法是非常现实的。
鉴于目前的网页端已经非常强大,是应用还是网页端,还重要吗?网页端确实强大,但操作系统拥有某些无法解锁的原生丰富性。比如在所有主要操作系统中的信息体验,比任何AI聊天应用都要丰富得多。如果能直接在信息应用里和AI聊天,会比去下载另一个应用让人高兴得多。
行业趋势预判:最短1年内,大模型将吞噬Agent Harness框架红利
如何看待“模型吞噬Harness”或者“模型吞噬脚手架”的趋势?
这是真的。其中的一部分原因在于,我们历来所认为的“模型”现在已经不再是那个单纯的权重了。它现在是一个围绕权重构建的、不断扩展的完整系统,正是这个系统实现了很多下一代体验,从智能体工具调用到各种托管工具、搜索、代码执行等。现在的模型是在容器中被拉起来的,并且带有智能体Harness之类的东西。
脚手架往往比直接固化在模型里的东西领先几步,然后结果就是模型吞噬了那个脚手架,它变成了原生模型系统的一部分。当然,在某些情况下,拥有外部脚手架仍然有价值,比如搜索。但现在感觉Agent Harness就是最典型的例子。
Logan的预判是:至少在12个月内,按照我们今天对Harness的理解,情况也许就不会是这样了。模型届时已经消化吸收了其中的很大一部分。它会被上游化到模型中,而红利将会转移到其他地方。它不会再体现在试图折腾你自己的Harness上,因为模型原生就能做到。
当然,人们构建自己Harness的部分原因在于担心被特定厂商的框架锁定。但脚手架的故事随着模型能力的提升会变得不那么正确。事实上,如果模型无法使用另一个框架,你就无法拥有一个通用的模型。因此,我们需要类似“Harness Bench”这样的东西,它能实际衡量所有这些不同的模型在适应所有这些不同Harness方面的表现如何。随着时间的推移,你会期望它们能够使用每一个框架。
“聚焦”是初创公司的超级力量
当模型吞噬了框架、吞噬了它周围的那些东西时,独立公司还能在哪里拥有生存的希望?
这是一个很有意思的故事,两件事感觉都是真的:一方面,现在是去构建新东西的最好时机,机会从未如此之多;另一方面,模型能做的事情也比以往任何时候都多。
一方面存在着“能力结余”,其中蕴含着巨大的超额收益;另一方面,模型公司都在追求解决非常通用的问题,而如果你在垂直领域拥有专业知识,就会发现这些垂直领域存在着巨大的价值。“聚焦”就是初创公司的超级力量。如果你能专注于一件事,你就能做成任何事。
相比之下,那些规模庞大、业务广泛的大公司很难做到高度聚焦。因此,24个月前大家还在问:未来初创公司的机会是不是变少了?但目前来看,实际情况完全相反:现在的机会比以前更多了。AI编码可以帮助初创公司缩小与拥有既定代码库的大公司之间的差距,你可以跑得更快,写软件更迅速。“智能体原语”就像是一个全新的类别,你可以围绕它来构建产品。这里的机会实在太多。
DeepMind现在像是谷歌的“引擎室”
现在身处GDM内部是什么感觉?
这种感觉不可思议。GDM的文化非常有趣,大概有三个观察:
第一,回到“聚焦”这条线。从投资组合的角度看,GDM拥有最强大的投资组合之一。你会看到某些时刻,其他实验室或公司在某个特定领域暂时领先。但看到GDM如何努力去缩小差距的过程很酷。从纪录片《思维游戏》中可以看到,最初的企业文化细节和今天非常相似:把一群聪明人聚在一起,然后去解决问题。
第二,文化是从领导者身上渗透出来的。Demis是一位获得诺贝尔奖的科学家,也是许多研究的元老,你可以在DeepMind的文化中深刻感受到这一点。而Sam Altman可能是有史以来最好的商人之一,你同样能在OpenAI的文化中看到这一点。DeepMind面对世界时极具科学性的态度,其初心纯粹是为了解决人类疾病等重大问题。人们很容易迷失在“谁在SWE-bench上刷分更高”的竞争里,却忽略了做这些事的初衷。
硅谷中有一句名言:“我们不能让别人比我们更让世界变得更美好。”现在这个阶段给人的感觉就是这样。大家都在争夺谁能比对方把世界变得更好。这绝对不是零和博弈。
关于DeepMind文化的最后一点是:它非常像是谷歌的“引擎室”。一方面拥有根深蒂固的实验室文化;另一方面,在整个谷歌生态系统中与众多合作伙伴合作,从Android到谷歌云,再到Gmail、Workspace等。将Gemini部署到拥有十亿级用户的产品中,这是世界上只有两家公司会面临的难题。而谷歌拥有13款这样的产品。这种事情只在谷歌内部才能看到。
总的来说,Logan很享受整个过程。他认为谷歌很难去讲好一个“真实”的故事,毕竟它太大了。但谷歌正在做世界上最有趣的科技,并帮助用户解决世界上一些最困难的问题。能参与并帮助讲述这个故事是一种荣幸。
这场对话从智能体、编程,到世界模型、开发框架以及GDM文化,信息量巨大。行业的发展似乎正在遵循一条清晰的路径:技术红利从模型本身,到上层框架,再到应用层,层层递进,而真正的价值,始终隐藏在那些最具体、最专注的场景中。

