Google Flash vs Pro：月耗3200万亿token深度测评

2026-06-03阅读 0热度 0

Pro

这周AI领域最震撼的消息，不是哪家模型又刷新了榜单，而是Google在I/O 2026上做了一件反直觉的事：

他们的“入门级”模型，直接把上一代的“旗舰款”给碾压了。

Gemini 3.5 Flash——光看命名就知道是个轻量级选手，结果在Agentic任务与编码能力上全面超越前代旗舰Gemini 3.1 Pro。更关键的是，发布当天即刻全量上线，直接成为Gemini App（9亿月活）和Google搜索AI Mode（10亿月活）的全球默认模型。

这就好比丰田突然宣布：新款卡罗拉百公里加速比上代雷克萨斯还快，而且便宜25%，全球4S店今天同步提车。

你说雷克萨斯车主心里怎么想？

一、Flash干翻Pro：到底强在哪？

咱们直接看数据。Gemini 3.5 Flash对上代旗舰Gemini 3.1 Pro：

Gemini 3.5 Flash 核心数据

基准测试	3.5 Flash	3.1 Pro	差距
Terminal-Bench 2.1（Agentic）	76.2%	70.3%	+5.9
MCP Atlas（工具链）	83.6%	78.2%	+5.4
Finance Agent v2	57.9%	43.0%	+14.9
Blueprint-Bench 2	33.6%	26.5%	+7.1
SWE-Bench Pro（代码）	55.1%	54.2%	+0.9
MMMU-Pro（多模态推理）	84.2%	—	历史最高

一个数字值得单独拎出来说：289 tokens/秒。

这个速度是GPT-5.5的4倍（71 tok/s），是Claude Opus 4的4.3倍（67 tok/s）。换算成实际场景：同样生成一篇1000字的报告，Claude Opus 4需要约30秒，GPT-5.5需要约28秒，而Gemini 3.5 Flash只要7秒。

但Pro也不是完全被碾压

说句公道话，3.1 Pro在几个维度上仍然保持领先：

基准测试	3.5 Flash	3.1 Pro	赢家
ARC-AGI-2（通用推理）	72.1%	77.1%	Pro
Humanity's Last Exam	40.2%	44.4%	Pro
MRCR v2 128K（长上下文）	77.3%	84.9%	Pro

规律非常明显：Flash赢在“干活”（Agentic、编程、工具调用），Pro赢在“想事”（深度推理、长上下文理解）。

这说明什么？Google不是在造一个“缩水版Pro”，而是把Flash往一个完全不同的方向调教——它不是来思考人生的，它是来干活的。

二、价格：一半欢喜一半忧

先看Gemini 3.5 Flash的具体定价：

模型	输入 $/1M token	输出 $/1M token
Gemini 3.5 Flash	$1.50	$9.00
Claude Sonnet 4.6	$3.00	$15.00
GPT-5.5	$5.00	$30.00
Claude Opus 4	$15.00	$75.00

乍一看，Flash比Sonnet便宜一半，比GPT-5.5便宜三分之二，比Opus便宜十倍。缓存输入价格更是夸张：$0.15/1M token，相当于打一折。

但开发者社区却炸锅了。

知名开发者Simon Willison直接开喷：

这是一个很有意思的趋势：模型越来越强，但“同级别”的价格也越来越贵。Flash已经不再是那个人畜无害的便宜货了。

Artificial Analysis的独立评测更扎心：综合计算下来，3.5 Flash比上代Pro还贵75%。

所以到底是便宜了还是贵了？答案是：跟竞品比确实便宜了，跟自家上一代比确实贵了。Google在跟你玩田忌赛马——用新一代的下等马去打别人的中等马。

三、Gemini Omni：一个“世界模型”悄悄登场

I/O 2026另一个重磅，是Gemini Omni。

Google DeepMind CEO Demis Hassabis亲自上台介绍，原话是：「任意输入，任意输出」——文本、图片、音频、视频都能进，视频和音频都能出。

Demo环节，Hassabis让Omni根据一段蛋白质折叠的文字描述，直接生成了一段黏土动画风格的解释视频，配音配乐一体化。

Gemini Omni 任意输入任意输出

架构上，Omni不是简单地把Gemini和Veo拼在一起。它把Gemini的推理能力和多个生成模型（Veo、Genie等）融合进了一个统一的核心引擎，所有模态在一个模型里同时处理，而不是分步走管道。

为什么这个至关重要？

因为之前所有的“多模态”模型，本质上都是“多个单模态模型的缝合怪”——文字进来走LLM，图片进来走ViT，视频生成走Diffusion。Omni试图打破这种管道架构，让模型真正“理解”不同模态之间的关系。

当然，这条路上早有先行者（GPT-4o就走过），但Omni是目前公开的、把视频生成纳入原生多模态的最激进尝试。

四、3200万亿token的背后

Pichai在台上甩出的那个数据，值得单独拿出来聊聊。

年份	月处理token量	同比增长
I/O 2024	9.7万亿	—
I/O 2025	480万亿	49倍
I/O 2026	3200万亿	7倍

两年，330倍的增长。

每分钟190亿token。375个Google Cloud客户在过去12个月里各自处理了超过1万亿token。850万开发者每月在用Google的模型。

The Register管这叫“Tokenmaxxing”——疯狂刷token量。

但这个数字真的有意义吗？

有，但不完全。

一方面，这说明AI已经从“实验品”变成了“基础设施”。3200万亿token不是刷出来的，是搜索、Gmail、Docs、Android、Chrome这些产品里真实的用户请求。Google的分发能力是它最大的护城河——你不需要去下载什么App，打开Chrome搜索就在用Gemini。

另一方面，token量不等于价值量。一个用户反复问“今天天气怎么样”产生的token，和一个开发者用Agent完成复杂任务产生的token，含金量完全不在一个量级。

Pichai自己也说了：“These tokens represent problems being solved.”——但问题的大小，差了十万八千里。

五、跟竞品怎么比？一张图说清楚

现在前沿模型的竞争已经不是一维的“谁更聪明”了，而是在智能×速度×价格的三维空间里找位置。

维度	Gemini 3.5 Flash	Claude Opus 4	GPT-5.5	Claude Sonnet 4.6
速度	289 tok/s	67 tok/s	71 tok/s	82 tok/s
SWE-Bench Pro	55.1%	64.3%	—	52%
MCP Atlas	83.6%	79.1%	75.3%	—
输入价格	$1.50	$15.00	$5.00	$3.00
输出价格	$9.00	$75.00	$30.00	$15.00
幻觉率	中等	最低	较低	低

一句话总结各家定位：

Gemini 3.5 Flash：干活最快、最便宜，Agentic工具调用最强Claude Opus 4：写代码最强（SWE-Bench 64.3%），幻觉最少，但最贵GPT-5.5：深度推理最强，综合最均衡Claude Sonnet 4.6：性价比标杆，各项中上

场景决定选择：如果你的需求是“Agent批量干活”，选Flash；如果你是要“改一个复杂的线上Bug”，选Opus。

六、I/O 2026的其他猛料

除了两个模型，Google这次I/O还甩了几个值得关注的东西：

Gemini 3.5 Pro：延期了

Pichai说“下个月上线”，台下开发者发出一声集体叹息。这是一个信号：Google可能在Pro级别上遇到了瓶颈，所以选择先把Flash推到极致。

Antigra vity 2.0

Google的Agent开发平台，类似Claude Code但更“Agent-first”。支持动态子Agent编排、定时自动化、AI Studio集成。一个Demo展示了93个并行子Agent在一次运行中完成了15000 请求，总API成本不到$1000。

Gemini Spark

个人AI Agent，跑在Google Cloud的专属VM上，7×24小时运行，执行长周期后台任务。相当于给你配了一个“永不下线的AI助理”。

TPU 8i 和 8t

第八代TPU，分推理芯片（8i）和训练芯片（8t）。Flash的289 tok/s就是跑在TPU 8i上的。

七、三个核心观察

看完整场I/O，有几点值得注意：

1. “Flash级别干翻Pro”是一个行业拐点。

这意味着模型能力的增长速度，已经超过了产品线分层的更新速度。今年的Flash比去年的Pro强，明年的Nano可能比今年的Flash强。“按等级选模型”的思路正在失效——你应该按任务选模型，而不是按价格等级选。

2. Google的真正护城河不是模型，是分发。

9亿月活的Gemini App、10亿月活的AI Mode、每月3200万亿token——这些数字揭示了一个事实：Google不需要在基准测试上赢过每一个对手。它只需要“够好”，然后靠Chrome、Android、Search的分发能力碾压一切。

3. “世界模型”的竞争刚刚开始。

Omni可能是今天最被低估的发布。视频生成只是表象，背后是对“物理世界理解”的野心。当AI不只是“会说话”，而是“理解世界如何运作”时，这个变化比任何基准测试的进步都大。

Hassabis那句话说得对：“It's a step towards artificial general intelligence.”

写在最后

每年I/O之后，总有人问：Google是不是又在画饼？

今年不一样。3.5 Flash发布当天就全量上线，直接替换掉了旧模型——这不是PPT发布，这是硬切换。

三大AI实验室的竞争格局越来越清晰：

Google：不一定最强，但最快、最便宜、分发最广Anthropic：代码和安全性最强，开发者心智份额最高OpenAI：综合推理最强，品牌最响

选谁？看场景吧。

但有一件事是确定的：当Flash都能干翻Pro的时候，你再也不能用“等更好的模型出来”当摸鱼的借口了。模型够了，该你上场了。