Google Flash vs Pro:月耗3200万亿token深度测评
这周AI领域最震撼的消息,不是哪家模型又刷新了榜单,而是Google在I/O 2026上做了一件反直觉的事:
他们的“入门级”模型,直接把上一代的“旗舰款”给碾压了。
Gemini 3.5 Flash——光看命名就知道是个轻量级选手,结果在Agentic任务与编码能力上全面超越前代旗舰Gemini 3.1 Pro。更关键的是,发布当天即刻全量上线,直接成为Gemini App(9亿月活)和Google搜索AI Mode(10亿月活)的全球默认模型。
这就好比丰田突然宣布:新款卡罗拉百公里加速比上代雷克萨斯还快,而且便宜25%,全球4S店今天同步提车。
你说雷克萨斯车主心里怎么想?
一、Flash干翻Pro:到底强在哪?
咱们直接看数据。Gemini 3.5 Flash对上代旗舰Gemini 3.1 Pro:
基准测试 | 3.5 Flash | 3.1 Pro | 差距 |
|---|---|---|---|
Terminal-Bench 2.1(Agentic) | 76.2% | 70.3% | +5.9 |
MCP Atlas(工具链) | 83.6% | 78.2% | +5.4 |
Finance Agent v2 | 57.9% | 43.0% | +14.9 |
Blueprint-Bench 2 | 33.6% | 26.5% | +7.1 |
SWE-Bench Pro(代码) | 55.1% | 54.2% | +0.9 |
MMMU-Pro(多模态推理) | 84.2% | — | 历史最高 |
一个数字值得单独拎出来说:289 tokens/秒。
这个速度是GPT-5.5的4倍(71 tok/s),是Claude Opus 4的4.3倍(67 tok/s)。换算成实际场景:同样生成一篇1000字的报告,Claude Opus 4需要约30秒,GPT-5.5需要约28秒,而Gemini 3.5 Flash只要7秒。
但Pro也不是完全被碾压
说句公道话,3.1 Pro在几个维度上仍然保持领先:
基准测试 | 3.5 Flash | 3.1 Pro | 赢家 |
|---|---|---|---|
ARC-AGI-2(通用推理) | 72.1% | 77.1% | Pro |
Humanity's Last Exam | 40.2% | 44.4% | Pro |
MRCR v2 128K(长上下文) | 77.3% | 84.9% | Pro |
规律非常明显:Flash赢在“干活”(Agentic、编程、工具调用),Pro赢在“想事”(深度推理、长上下文理解)。
这说明什么?Google不是在造一个“缩水版Pro”,而是把Flash往一个完全不同的方向调教——它不是来思考人生的,它是来干活的。
二、价格:一半欢喜一半忧
先看Gemini 3.5 Flash的具体定价:
模型 | 输入 $/1M token | 输出 $/1M token |
|---|---|---|
Gemini 3.5 Flash | $1.50 | $9.00 |
Claude Sonnet 4.6 | $3.00 | $15.00 |
GPT-5.5 | $5.00 | $30.00 |
Claude Opus 4 | $15.00 | $75.00 |
乍一看,Flash比Sonnet便宜一半,比GPT-5.5便宜三分之二,比Opus便宜十倍。缓存输入价格更是夸张:$0.15/1M token,相当于打一折。
但开发者社区却炸锅了。
知名开发者Simon Willison直接开喷:
这是一个很有意思的趋势:模型越来越强,但“同级别”的价格也越来越贵。Flash已经不再是那个人畜无害的便宜货了。
Artificial Analysis的独立评测更扎心:综合计算下来,3.5 Flash比上代Pro还贵75%。
所以到底是便宜了还是贵了?答案是:跟竞品比确实便宜了,跟自家上一代比确实贵了。Google在跟你玩田忌赛马——用新一代的下等马去打别人的中等马。
三、Gemini Omni:一个“世界模型”悄悄登场
I/O 2026另一个重磅,是Gemini Omni。
Google DeepMind CEO Demis Hassabis亲自上台介绍,原话是:「任意输入,任意输出」——文本、图片、音频、视频都能进,视频和音频都能出。
Demo环节,Hassabis让Omni根据一段蛋白质折叠的文字描述,直接生成了一段黏土动画风格的解释视频,配音配乐一体化。
架构上,Omni不是简单地把Gemini和Veo拼在一起。它把Gemini的推理能力和多个生成模型(Veo、Genie等)融合进了一个统一的核心引擎,所有模态在一个模型里同时处理,而不是分步走管道。
为什么这个至关重要?
因为之前所有的“多模态”模型,本质上都是“多个单模态模型的缝合怪”——文字进来走LLM,图片进来走ViT,视频生成走Diffusion。Omni试图打破这种管道架构,让模型真正“理解”不同模态之间的关系。
当然,这条路上早有先行者(GPT-4o就走过),但Omni是目前公开的、把视频生成纳入原生多模态的最激进尝试。
四、3200万亿token的背后
Pichai在台上甩出的那个数据,值得单独拿出来聊聊。
年份 | 月处理token量 | 同比增长 |
|---|---|---|
I/O 2024 | 9.7万亿 | — |
I/O 2025 | 480万亿 | 49倍 |
I/O 2026 | 3200万亿 | 7倍 |
两年,330倍的增长。
每分钟190亿token。375个Google Cloud客户在过去12个月里各自处理了超过1万亿token。850万开发者每月在用Google的模型。
The Register管这叫“Tokenmaxxing”——疯狂刷token量。
但这个数字真的有意义吗?
有,但不完全。
一方面,这说明AI已经从“实验品”变成了“基础设施”。3200万亿token不是刷出来的,是搜索、Gmail、Docs、Android、Chrome这些产品里真实的用户请求。Google的分发能力是它最大的护城河——你不需要去下载什么App,打开Chrome搜索就在用Gemini。
另一方面,token量不等于价值量。一个用户反复问“今天天气怎么样”产生的token,和一个开发者用Agent完成复杂任务产生的token,含金量完全不在一个量级。
Pichai自己也说了:“These tokens represent problems being solved.”——但问题的大小,差了十万八千里。
五、跟竞品怎么比?一张图说清楚
现在前沿模型的竞争已经不是一维的“谁更聪明”了,而是在智能×速度×价格的三维空间里找位置。
维度 | Gemini 3.5 Flash | Claude Opus 4 | GPT-5.5 | Claude Sonnet 4.6 |
|---|---|---|---|---|
速度 | 289 tok/s | 67 tok/s | 71 tok/s | 82 tok/s |
SWE-Bench Pro | 55.1% | 64.3% | — | 52% |
MCP Atlas | 83.6% | 79.1% | 75.3% | — |
输入价格 | $1.50 | $15.00 | $5.00 | $3.00 |
输出价格 | $9.00 | $75.00 | $30.00 | $15.00 |
幻觉率 | 中等 | 最低 | 较低 | 低 |
一句话总结各家定位:
Gemini 3.5 Flash:干活最快、最便宜,Agentic工具调用最强Claude Opus 4:写代码最强(SWE-Bench 64.3%),幻觉最少,但最贵GPT-5.5:深度推理最强,综合最均衡Claude Sonnet 4.6:性价比标杆,各项中上场景决定选择:如果你的需求是“Agent批量干活”,选Flash;如果你是要“改一个复杂的线上Bug”,选Opus。
六、I/O 2026的其他猛料
除了两个模型,Google这次I/O还甩了几个值得关注的东西:
Gemini 3.5 Pro:延期了
Pichai说“下个月上线”,台下开发者发出一声集体叹息。这是一个信号:Google可能在Pro级别上遇到了瓶颈,所以选择先把Flash推到极致。
Antigra vity 2.0
Google的Agent开发平台,类似Claude Code但更“Agent-first”。支持动态子Agent编排、定时自动化、AI Studio集成。一个Demo展示了93个并行子Agent在一次运行中完成了15000 请求,总API成本不到$1000。
Gemini Spark
个人AI Agent,跑在Google Cloud的专属VM上,7×24小时运行,执行长周期后台任务。相当于给你配了一个“永不下线的AI助理”。
TPU 8i 和 8t
第八代TPU,分推理芯片(8i)和训练芯片(8t)。Flash的289 tok/s就是跑在TPU 8i上的。
七、三个核心观察
看完整场I/O,有几点值得注意:
1. “Flash级别干翻Pro”是一个行业拐点。
这意味着模型能力的增长速度,已经超过了产品线分层的更新速度。今年的Flash比去年的Pro强,明年的Nano可能比今年的Flash强。“按等级选模型”的思路正在失效——你应该按任务选模型,而不是按价格等级选。
2. Google的真正护城河不是模型,是分发。
9亿月活的Gemini App、10亿月活的AI Mode、每月3200万亿token——这些数字揭示了一个事实:Google不需要在基准测试上赢过每一个对手。它只需要“够好”,然后靠Chrome、Android、Search的分发能力碾压一切。
3. “世界模型”的竞争刚刚开始。
Omni可能是今天最被低估的发布。视频生成只是表象,背后是对“物理世界理解”的野心。当AI不只是“会说话”,而是“理解世界如何运作”时,这个变化比任何基准测试的进步都大。
Hassabis那句话说得对:“It's a step towards artificial general intelligence.”
写在最后
每年I/O之后,总有人问:Google是不是又在画饼?
今年不一样。3.5 Flash发布当天就全量上线,直接替换掉了旧模型——这不是PPT发布,这是硬切换。
三大AI实验室的竞争格局越来越清晰:
Google:不一定最强,但最快、最便宜、分发最广Anthropic:代码和安全性最强,开发者心智份额最高OpenAI:综合推理最强,品牌最响选谁?看场景吧。
但有一件事是确定的:当Flash都能干翻Pro的时候,你再也不能用“等更好的模型出来”当摸鱼的借口了。模型够了,该你上场了。

