2024 Google I/O 重磅盘点:Gemini 生态、视频模型与音频眼镜深度解析

2026-05-20阅读 0热度 0
Google

千呼万唤始出来,北京时间2026年5月20日凌晨,Google I/O开发者大会的大幕终于拉开。或许是刻意为之,Google提前通过《The Android Show》节目“分流”了Android 17的大部分新特性,让本届大会的核心焦点毫无悬念地落在了AI身上。

不过,Google的AI叙事向来与众不同。手握Gemini大模型、YouTube、网页搜索、Android操作系统等多张王牌,它思考的从来不是如何打造一个孤立的AI工具,而是如何让AI成为贯穿其整个生态系统的“神经中枢”。因此,本届I/O的主题,与其说是发布新技术,不如说是一场关于“如何用AI为既有生态全面赋能”的深度预演。

视频模型Omni与3.5:新模型双王炸让Google AI更全能

模型层面,Google正式推出了迄今为止最全能的Gemini Omni。这个名字本身就暗示了其野心——全能。用最直白的话概括,它实现了“任意形式输入,任意形式输出”。更关键的是,整个生成过程不再是“一锤子买卖”,用户可以通过对话实时进行修改和调整。

IMG_2075.png

图片来源:Google

大会演示了一个制作MV的场景:只需将音乐、视频片段、图片素材连同大致的画面要求一并提交给Omni,它就能直接生成一段匹配的短视频。但这还不是最令人惊讶的。另一个演示中,工作人员在一张白纸上手绘了一个圆圈,并附上一句文字描述,Omni便据此生成了一段完整的特效动画。若对其中某个元素不满意,比如觉得玻璃建筑不够梦幻,只需说出“把玻璃建筑换成肥皂泡”,Omni就能精准替换,新生成的肥皂泡甚至拥有逼真的物理碰撞效果。

IMG_2074.png

图片来源:Google

Google自己对此的比喻颇为有趣,称“Gemini Omni就像是视频领域的Nano Banana”,意指其在特定领域的碘伏性。据悉,Omni Flash模型即日起将在Gemini App、Google Flow、YouTube Shorts等平台上线,相应的API也会随后开放。

截屏2026-05-20 01.24.48.png

图片来源:Google

除了这位“全能选手”,Gemini家族也迎来了3.5版本更新,首发的是轻量级的Gemini 3.5 Flash。相比前代3.1 Pro,新版本在编程、现实环境智能体任务执行以及大规模工具调用等测试中表现更优。按照惯例,有Flash必有Pro,Google也预告了性能更强的Gemini 3.5 Pro将于下月亮相。可以说,在模型能力的“多、快、好、省”这四个维度上,Google此次展示的成果堪称全面。

Google Antigra vity与Gemini Spark:智能体重构搜索体验

底层模型能力跃升,基于其上构建的AI智能体自然水涨船高。

截屏2026-05-20 01.32.04.png

图片来源:Google

面向开发者,Google的AI开发环境Antigra vity已集成Gemini 3.5 Flash。一个震撼的案例是,借助新模型,Antigra vity仅用12小时就搭建了一个操作系统内核,而整个过程的AI API成本竟控制在1000美元以内。

截屏2026-05-20 01.29.44.png

图片来源:Google

更具碘伏性的是,Google甚至利用Antigra vity和Gemini 3.5 Flash重构了其核心产品——搜索的交互界面,提出了“生成式UI”的概念。目前,即便在搜索页面启用AI模式,其结果也大多以传统对话框的形式呈现。这对于简单问答尚可,但遇到“陀飞轮是如何工作的?”这类需要直观演示的复杂问题时,文本的局限性就暴露无遗。

截屏2026-05-20 01.44.46.png

图片来源:Google

新的解决方案是,面对复杂查询,搜索AI会运用“Vibe Coding”技术,动态生成一个包含交互元素的前端页面,让用户通过点击、拖拽等方式直接获得答案。这项功能预计在2026年夏季上线,并且它将作为Google搜索的免费更新提供,无需订阅Gemini高级服务。同时,Gemini App本身的界面也获得了更新,与Android的新视觉语言更加统一。

截屏2026-05-20 01.54.04.png

图片来源:Google

得益于3.5 Flash的多模态能力,搜索的输入和预测也得到增强。现在,除了文字和图片,用户可以直接上传视频或文档进行搜索。而传统的搜索建议框,也升级为基于AI理解的智能补全。

截屏2026-05-20 01.47.02.png

图片来源:Google

除了这些前台可见的变化,搜索智能体的“后台能力”也被大幅强化。全新的搜索Agent可以全天候运行,持续监控用户指定的信息。例如,你可以让它紧盯OpenAI、Anthropic等竞争对手的动态,一旦有重大新闻,立即通过邮件等方式推送,确保你不会错过任何热点。

说到智能体,Google正式发布了面向个人用户的新产品——Gemini Spark。与同类产品一样,它能7×24小时接管手机和浏览器。但其独特之处在于,Spark运行在一个专门的虚拟化环境中,安全性更高。它由Gemini 3.5 Flash和Antigra vity驱动,支持语音交互和后台响应,不仅能无缝调用Google Docs、日历、Gmail等自家服务,还能通过MCP协议与外部应用互联,实现更复杂的任务自动化。

截屏2026-05-20 01.58.41.png

图片来源:Google

虽然Google未明确公布其跨平台策略,但预计它将通过Gemini App登陆iOS,并以深度集成的方式进入Android系统。当Spark在后台运行时,Android系统会在屏幕左上角常驻一个状态标记(名为Android Halo),方便用户随时查看或跳转,其设计逻辑与当前的摄像头、麦克风使用提示类似。这看似是一个小功能,实则意味深长——它暗示着智能体在未来的移动体验中,将如同摄像头和传感器一样,成为系统级的基础设施。

截屏2026-05-20 01.42.25.png

图片来源:Google

桌面端方面,Gemini Spark将于今夏登陆Chrome浏览器。需要注意的是,与一些提供部分免费服务的国内AI智能体不同,Spark是一项完整的订阅功能,下周将率先面向Google AI Ultra订阅用户开放。

IMG_2080.png

图片来源:Google

值得一提的是,为了细化用户分层,Google在原有的AI Pro和AI Ultra套餐之间,新增了一个“青春版”AI Ultra等级,月费定为100美元。这背后反映出一个现实:即便强如Google,也难以完全承担全面AI化带来的巨额算力成本。AI的尽头是算力,而算力的尽头是真金白银的投入。未来,为高级AI服务付费,或许会像今天的手机话费一样,成为一项普遍的“刚性消费”。

截屏2026-05-20 01.35.49.png

图片来源:Google

音频眼镜首次登台,Gemini硬件生态日渐完善

去年,Google展示了带显示功能的AR眼镜原型。今年,其硬件生态补上了“音频版”智能眼镜这一环。需要澄清的是,这款Gemini音频眼镜并非简单的耳机替代品,它配备了摄像头,具备完整的AI视觉和多模态输入能力。

由于产品要等到2026年秋季才会发布(很可能为了适配高通新一代芯片),本次大会仅展示了外观和核心功能。设计上,Google选择了与三星及知名眼镜品牌Gentle Monster、Warby Parker合作。功能上,用户可通过语音或镜腿上的触控板唤醒Gemini。

IMG_2094.png

图片来源:Google

凭借底层模型和Spark智能体的能力,眼镜可以将用户的语音指令自动分解为一系列操作,并在手机后台执行。例如,用户可以说“买一杯上次点的咖啡”,手机上的Gemini便会自动打开咖啡应用、添加商品,并在用户语音确认(预计采用声纹验证)后完成支付。

IMG_2095.png

图片来源:Google

一个值得关注的细节是,Google宣布这款眼镜将同时支持Android和iOS平台。不过,在iOS严格的沙盒机制下,其在iPhone上的能力势必会受到一定限制。

为了进一步拓展Gemini的应用场景,Google Workspace办公套件也全面AI化。用户可以通过语音,让Gemini在Gmail中查找邮件,在Docs中辅助写作,甚至在Google Pics中生成图像。

截屏2026-05-20 01.07.24.png

图片来源:Google

结合此前曝光的搭载Gemini的高端“Googlebook”笔记本,可以看出,Google正不遗余力地将Gemini注入其所能触及的每一个硬件生态位。

主题演讲至此结束。表面上看,这似乎是Google在AI竞赛中后发制人的一次“画饼”。但深入分析,Google I/O 2026所揭示的,恰恰是Google终于找到了属于AI时代的正确打开方式。

例如,针对“AI交互该如何进行”这个根本问题,Google敢于对自家的“摇钱树”开刀,用“生成式UI”打破了传统AIGC“回合制”的单向交互模式。这种从单向到双向的转变,也延伸到了硬件领域。过去,AI硬件常常是“硬件归硬件,AI归AI”,两者结合生硬。而现在,Gemini 3.5 Flash的多模态能力,让音频眼镜等设备真正成为了Gemini感知世界的“物理器官”。

IMG_2082.png

图片来源:Google

更重要的是,Gemini正在利用其在Android系统中的底层优势,构筑一道其他厂商难以逾越的护城河。当其他AI智能体还在应用沙盒的边界外徘徊,依靠协议艰难地进行跨应用协同时,Gemini已经凭借系统级权限,实现了原生级的无缝互通。

回看开头提到的,Google手握的多个生态入口——Gemini、YouTube、搜索、Android。在I/O 2026上,这些曾经四处“开花”的生态,终于迎来了“结果”的季节,它们被AI紧密地编织成了一张大网。

当然,这套高度依赖Google自有生态的打法,对OpenAI等对手是挑战,但对国内AI企业而言,或许也指明了另一种机遇。Gemini的全家桶模式在国内难免“水土不服”,但其“多模态交互+系统级集成+全天候智能体”的核心逻辑,却极具参考价值。海外有Google在原生安卓底层破局,国内厂商同样可以在深度定制的系统里,构建自己的AI生态王国。更何况,国内品牌在智能体场景落地的“内卷”程度和本地化深度,往往比原生系统更为激进和接地气。

Google I/O 2026,可以看作是Google亮出了Gemini的底牌。接下来,就看国内外的玩家们,如何接招与破局了。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策