Google I/O 2026 核心更新全解析:开发者必看指南

2026-05-20阅读 0热度 0
谷歌

谷歌I/O开发者大会再次拉开帷幕。开场致辞中,谷歌CEO明确了本届大会的核心:AI行业已从技术炫技阶段,转向了价值兑现阶段。焦点不再是模型参数,而是AI如何深度融入并重塑用户日常使用的产品。谷歌的答案,就蕴含在今天发布的一系列产品与技术迭代中。

Token处理量:从480万亿到3千万亿的指数级增长

衡量AI规模化应用,Token处理量是关键指标。两年前,谷歌全产品线月处理Token量为9.7万亿。去年I/O,这一数字飙升至480万亿。今年,数据再次实现跨越式增长——月处理量突破3.2千万亿(quadrillion),是去年同期的7倍。

图片

开发者与企业的采用同样迅猛:每月使用谷歌模型构建应用的开发者超过850万;模型API每分钟处理的Token量约190亿;过去12个月,超过375家谷歌云客户各自的Token处理量均突破了1万亿大关。

产品规模:13款十亿级月活产品构筑的AI生态

目前,谷歌旗下有13款产品的月活跃用户数超过10亿,其中5款突破30亿。搜索(Search)仍是覆盖面最广的AI入口,其AI概览(AI Overviews)功能月活用户已超25亿。作为搜索史上最大升级的AI模式(AI Mode),上线一年月活即突破10亿。用户行为正从单次查询,向持续的对话式交互演变。

再看Gemini应用,去年I/O时月活为4亿,今年已超过9亿,实现翻倍增长,每日请求量更是增长了超过7倍。其中,Nano Banana图像生成模型累计生成的图片数量已超过500亿张。

对话式AI:重塑核心产品的交互体验

对话式AI正深度集成到谷歌核心产品中,带来根本性的体验升级。

Ask YouTube:如何从YouTube海量视频中精准定位信息?Ask YouTube重构了搜索体验。它不再仅列出相关视频,而是能直接跳转到视频中最相关的片段。该功能目前处于测试阶段,预计今年夏季在美国全面推出。

Docs Live:谷歌文档新增语音功能Docs Live。过去用Gemini撰写文档需输入明确指令,现在,你只需口述想法,Gemini便能自动整理成结构清晰的文档。未来还将支持直接通过语音新建和编辑文档。Docs Live将于今年夏季向订阅用户推出,同期Gmail和Keep也将集成语音功能。

Ask Maps:谷歌地图迎来十年来最大规模升级,核心之一是Ask Maps功能。它支持更复杂、更长的自然语言提问,让地点搜索与路线规划更加智能直观。

基础设施:从310亿到1800亿美元的资本投入

支撑庞大产品规模运转的,是谷歌在基础设施上的巨额投入。2024年,谷歌年资本支出为310亿美元。今年,这一数字预计将达到1800亿至1900亿美元,增长约6倍。

在芯片层面,谷歌此前在Cloud Next上发布了第八代TPU,并首次采用双芯片策略,为训练和推理分别优化架构。

TPU 8t专为大规模预训练设计,原始算力约为上一代的3倍。结合JAX和Pathways软件栈,模型训练可跨多个数据中心进行分布式训练。谷歌全球可调用的TPU数量超过100万块,构成了全球最大的训练集群,从而将模型训练周期从数月压缩至数周。

TPU 8i则专为推理场景优化,显著提升了响应速度。两款芯片的能效均比上一代提升了约2倍。

图片

模型进化:Gemini Omni与Gemini 3.5 Flash

模型能力的持续进化是本次发布的核心。

Gemini Omni:AI正从文本预测转向现实模拟。Gemini Omni是谷歌新发布的多模态世界模型,支持任意模态(文字、图像、视频、音频)输入,并生成任意模态输出。首发版本以视频输出为主,后续将支持图像和文字。从今天起,用户可在Gemini应用、Google Flow和YouTube Shorts上体验Omni Flash版本,开发者和企业客户也将在未来几周内通过API获得访问权限。

图片

其核心能力体现在:

1. 自然语言视频编辑:Omni支持通过对话逐步编辑视频,每条指令都基于上一条的结果,确保角色、场景和物理规律的前后连贯性。

2. 物理理解与世界知识:模型对重力、动能、流体动力学等物理规律有更准确的直觉理解,生成的场景物理表现更真实。同时,它能调用Gemini的历史、科学和文化背景知识,实现语言、图像与深层含义的关联,而非简单的模式匹配。

3. 任意输入组合:支持将图片、文字、视频、音频同时作为参考输入,生成风格统一的输出内容。

4. 数字Avatar:用户可用Omni创建自己的数字Avatar,生成外观与声音都高度仿真的视频。不过,视频中音频与语音的修改功能仍在测试中。

需要指出的是,初步测试反馈显示,Omni当前的视频生成效果与Sora等顶尖模型相比仍有提升空间。

Gemini 3.5 Flash:谷歌今天推出了定位为“融合前沿智能与高效行动”的新一代模型Gemini 3.5 Flash。

与3.1 Pro相比,3.5 Flash在多项基准测试中领先,具体包括:Terminal-Bench 2.1(76.2%)、GDPval-AA(1656 Elo)和MCP Atlas(83.6%),在多模态理解上CharXiv Reasoning达到84.2%。其中GDPVal专门衡量现实世界中具有经济价值的任务,其进步尤为显著。在速度方面,其输出Token速度是其他前沿模型的4倍,在配合Antigravity平台时甚至能达到每秒800个Token,快12倍。

图片

3.5 Flash配合Antigravity可以调度多个子智能体协同工作,处理规模化复杂任务。其前端生成能力出色,在多模态基础上,还能生成更丰富的交互式网页UI和图形,例如直接在AI Studio中为一篇研究论文生成交互式动画。

成本是其另一大优势。3.5 Flash的成本不到同等性能前沿模型的一半。谷歌估算:假设一家头部企业每天处理约1万亿Token,若将80%的工作负载从其他前沿模型切换到3.5 Flash,每年可节省超过10亿美元。

Gemini 3.5 Flash从今天起对所有用户和API开放。更强大的Gemini 3.5 Pro目前仅在谷歌内部使用,预计下个月推出。谷歌内部数据显示,借助Antigravity平台和3.5 Flash,其AI开发工具处理的Token量已从3月份的每天5000亿,翻倍增长至如今的每天超过3万亿。

Antigravity 2.0:自主AI智能体开发平台

Antigravity正从一个AI编程环境,扩展为完整的自主AI智能体开发与管理平台。Antigravity 2.0是一个新的独立桌面应用,作为智能体交互中心,用户可在其中协调各类智能体处理不同任务。在速度上,该版本使用了专门优化的Flash版本,比其他前沿模型快12倍。其界面设计与某些主流代码编辑器相似。

Antigravity用户从今天起可以开始体验。

Gemini Spark:全天候运行的个人AI智能体

Gemini应用即将推出个人AI智能体——Gemini Spark。在用户授权下,它可以代表用户在数字世界中执行操作。

关键特性:运行在谷歌云专用虚拟机上,7×24小时持续运行,无需用户设备保持开机;由Gemini 3.5和Antigravity驱动,可在后台轻松处理长周期任务;初期整合谷歌自有工具,未来几周将通过MCP协议接入第三方工具;支持在Gemini应用中交互,未来也可通过邮件和即时通讯使用;在Android上,用户可通过新UI空间Android Halo查看智能体实时进度(今年晚些时候上线);今年夏季晚些时候,Spark将能直接在Chrome浏览器中运行,成为跨网页的智能体。

本周起,Spark向受信测试用户开放,下周Beta版将面向美国的Google AI Ultra订阅用户推出。

搜索迈入智能体时代

搜索功能也在向智能体方向进化,主要体现在三个新功能:

信息智能体:用户可以设置个性化AI智能体在后台持续运行,在适当时机主动发现所需信息并协助采取行动。今年夏季起向Google AI Pro和Ultra订阅用户推出。

生成式UI:结合Gemini 3.5 Flash和Antigravity,搜索将为每个问题动态生成定制化界面,包括个性化布局和交互式视觉内容。今年夏季向所有用户免费开放。

持久化自定义看板:对于需要持续追踪的长期任务,搜索可为用户构建专属看板或追踪工具,类似为特定任务定制的迷你应用。未来几个月起向美国Google AI Pro和Ultra订阅用户开放。

其他关键产品更新

本次大会还发布了一系列其他产品更新:

Daily Brief:Gemini应用即将推出的开箱即用智能体,整合收件箱、日历和任务,生成个性化每日摘要,不仅汇总信息,还会进行优先级排序、整理并提供下一步建议,以易于浏览的形式呈现。

Google Flow:今天向所有用户推出的新智能体,可在用户参与和控制下规划并处理复杂任务。支持在Flow中直接通过“氛围编程”调用各类创意工具,例如视频特效设计、手绘动画或文字叠加工具。

Google Pics:基于最新Nano Banana模型的AI图像创建与编辑工具。它将图片中的每个元素视为独立对象而非平面图像,支持对特定细节进行精确创建、替换和调整。目前向受信测试用户开放,今年夏季晚些时候向Workspace中的Google AI Pro和Ultra订阅用户推出。

智能眼镜:去年亮相的AI眼镜产品公布更多细节,分为音频眼镜(耳机形态,提供语音提示)和显示眼镜(可显示信息)两种,均支持免提使用Gemini。音频眼镜将于今年秋季率先上市。

Gemini for Science:面向科学研究的AI工具集,整合了Gemini的深度推理与研究能力、Deep Think和Deep Research,并新增了可以将Antigravity等智能体平台连接到超过30个主要生命科学数据库和工具的Science Skills。用户可在Google Labs申请试用其实验功能,Science Skills从今天起在Github和Antigravity中直接可用。

图片

纵观整场发布会,从专为推理优化的TPU 8i芯片,到兼具速度与成本优势的Gemini 3.5 Flash模型,再到Antigravity开发平台和Spark个人智能体,谷歌呈现的是一套从底层硬件到上层应用、全面向智能体(Agent)方向演进的完整技术栈。这正是谷歌对“AI如何创造实际价值”这一时代命题给出的系统性解答。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策