Siri AI体验类似Chrome Gemini侧面板深度评测
在 WWDC 2026 大会上,苹果正式发布了 Siri AI,底层引擎来自谷歌的 Gemini 系列模型。苹果明确指出双方“展开深度合作,充分借助 Gemini 系列模型背后的技术”,以此构建面向 Apple Intelligence 的“新一代苹果基础模型”,并推出全新助手体验“Siri AI”。
从 Siri 到 Siri AI 的跨越,本质上与谷歌助手演变为 Gemini 应用是同一路径。苹果如今补齐了现代 AI 助手的核心能力:个人上下文理解、应用操作、屏幕感知、图像理解、广泛的世界知识获取,以及多轮对话支持——这些曾是安卓阵营的独有优势。
视觉交互上,苹果将灵动岛改造为类似“Gemini 浮层”的入口。回答内容从屏幕顶部展开,而非安卓常见的底部弹出。回复文本与相关视觉内容均显示于此,用户向下滑动即可让答案占满全屏。从胶囊形开口向下滑动是进入新体验的另一种方式,也可长按侧边按钮或喊一声“嘿 Siri”。苹果还单独开发了一款 Siri 应用,用于展示对话历史,主页设计类似 Google Keep 的卡片流,历史对话一张张平铺。
苹果为 Siri 推出了更具表现力的语音,提供了多种声音选项,并通过“语速”和“表现力”两个滑块让用户自行调节。而谷歌在 I/O 2026 上宣布,Gemini 即将支持地区方言——双方在语音维度各有侧重。
听写功能也得到升级,苹果称能“更准确地捕捉用户所说的内容,包括拼写、标点和大小写”。但谷歌更激进——即将登陆 Gemini Intelligence 设备的 Gboard Rambler,用户“无需在开口前斟酌措辞”,谷歌会理解语义、上下文和语气,并将内容整理成简洁且符合个人风格的信息。这一点上谷歌依然领先一步。
相机应用新增了“Siri”模式。与谷歌 Lens 的 AI 模式或直接在 Gemini 里添加图片相比,苹果提供的是更具引导性的体验——更像一个专为 AI 交互设计的独立入口。
Safari 利用 Apple Intelligence 自动按主题整理标签页,这个功能 Chrome 在 2024 年也测试过,不算新鲜。但苹果还推出了“提醒我”功能,能自动监控指定网页的变化。Gemini 用户虽然可以通过定时操作或 Spark 实现类似效果,但 Safari 的体验更直观:你只需用自然语言描述想查找的内容,关闭标签页后,一旦 Safari 检测到页面变化,就会主动推送通知。这种“被动监控+主动推送”的思路,比手动设置定时任务省心得多。
密码应用结合 Apple Intelligence 与 Safari,可以“智能体式地”自动访问各网站并修复密码问题——谷歌去年在 Chrome 上也做了类似的密码智能体。Safari 的另一个亮点是“描述扩展”,用户只用自然语言描述需求,Safari 就能创建专属的自定义扩展,按需调整网页显示效果。这个功能初步触及了生成式 UI 的边界,Chrome 目前还没跟上。
信息方面,Apple Intelligence 能“理解对话上下文,并提供一键式建议”,比如创建提醒或备注。谷歌信息在 AI 之前就具备类似能力,Pixel 上的 Magic Cue 还能在收到相关文字消息时主动推送照片——算是不分伯仲。
日历:添加事件时,苹果提供了文本输入框,支持对话式创建,Gemini 也能实现同样功能,没什么惊喜。
电话:“通话上下文”能主动从各应用中调取相关信息。苹果举的例子是:拨打航空公司电话时,确认码自动弹出。这个逻辑和谷歌 Magic Cue 一模一样。
家庭应用里,Apple Intelligence 把多条提醒整合成一条持续更新的通知,还能对摄像头片段做摘要,支持语义搜索——与 Gemini 驱动的谷歌 Home 功能基本一致。
快捷指令是苹果的一个独特优势:支持用自然语言提示词转化为快捷指令。Android 目前还没有系统级的同类功能。虽然 Gemini 可以在应用内完成一些自动化,但和苹果这种全局统一的快捷指令体系相比,还是差了一层。
图像娱乐场现在支持生成照片级真实感图像,苹果没有披露底层模型。Gemini 应用同样能生成图像,但苹果的独立应用提供了更有引导性的体验——用户不用想太多,打开就能用。
照片方面,苹果借助更强大的 Apple Intelligence 图像模型,把“净化”功能(更逼真的区域填充)和“延展”功能(图像扩展)的质量大幅提升。还有一个“空间重构”功能,能改变照片的拍摄视角,仿佛“在原始场景中重新定位了镜头”。这比谷歌相册的魔法橡皮擦又多了一层想象空间。
和谷歌类似,苹果的订阅服务也能解锁更多使用权限。目前明确的限制是图像生成有每日次数上限,苹果给出的解释是“因为这些功能依赖于强大的服务器模型”。可以理解为这是苹果对云端算力的一种管控策略。
总的来说,Siri AI 提供的体验与 Chrome 中 Gemini 侧边栏类似,可以和屏幕上显示的内容进行交互——苹果举例说可以对电子书做摘要。目前 Siri AI 已经扩展到更多地区和语言,非英语用户也能用更多功能,包括韩语、葡萄牙语和法语。
以下是部分核心功能的对比清单,一目了然:
苹果 Siri AI 与 Android 谷歌 Gemini 功能对比
功能 | Siri AI / Apple Intelligence | Gemini / Android
AI 语音助手 | Siri AI,支持富有表现力的语音及自定义语速 | Gemini 应用/助手,即将支持地区方言
屏幕感知 | 通过 Siri 实现应用操作与屏幕上下文感知 | 应用内 Gemini 浮层/侧边栏
图像理解 | 相机模式,提供引导式 AI 体验 | 谷歌 Lens + Gemini AI 模式
标签页整理 | Safari 按主题整理标签页 | Chrome 于 2024 年测试过此功能
网页监控 | Safari“提醒我”功能,监控页面变化 | Gemini 定时操作 / Spark
自然语言浏览 | 用自然语言告诉 Safari 你在找什么 | Chrome 中集成 Gemini 搜索
密码管理 | AI 智能体自动修复 Safari 密码 | Chrome 密码智能体(2024 年发布)
自定义浏览器扩展 | 在 Safari 中描述并创建扩展 | Chrome 暂不支持
消息上下文 | 根据对话上下文提供智能建议 | 谷歌信息(AI 之前已有)+ Magic Cue
日历事件 | 对话式创建事件 | Gemini 集成至谷歌日历
通话上下文 | 通话期间自动显示确认码 | Pixel 上的 Magic Cue
家居自动化 | AI 通知摘要 + 摄像头片段摘要 | Gemini 驱动的谷歌 Home
快捷指令/自动化 | 自然语言转快捷指令 | Android 暂无系统级同类功能
图像生成 | 图像娱乐场支持照片级真实感图像 | Gemini 应用(图像生成)
照片编辑 | 净化、延展、空间重构 | 谷歌相册(魔法橡皮擦等)
AI 听写 | 大幅提升准确度,支持标点感知 | Gboard Rambler(即将登陆 Gemini Intelligence 设备)
订阅权限 | 服务器端图像生成有每日次数上限 | Gemini Advanced 订阅
以上对比覆盖了 17 项功能,双方差距其实并不像很多人想的那么悬殊。过去很长一段时间里,Android/谷歌在 AI 能力上确实有明显领先优势,但如今苹果已经在多个领域追平,甚至在一些细节上实现了反超。
Q&A
Q1:Siri AI 和以前的 Siri 有什么区别?
A:Siri AI 是苹果与谷歌深度合作的成果,底层基于 Gemini 系列模型技术打造。相比旧版 Siri,Siri AI 具备了个人上下文理解、应用操作、屏幕感知、图像理解及广泛世界知识获取能力,同时支持多轮连续对话。整体升级幅度相当于谷歌助手向 Gemini 应用的跨代演进——可以理解为一次彻底的“基因重组”。
Q2:苹果快捷指令的自然语言功能,Android 有没有类似的?
A:目前 Android 系统层面还没有与苹果快捷指令自然语言转换能力完全对应的功能。苹果允许用户直接用自然语言提示词生成快捷指令,属于系统级功能;而 Android 目前还没有这样的系统级等价方案。虽然 Gemini 可以在应用内完成一定的任务自动化,但并未形成统一的系统级快捷指令体系——这是苹果当前一个比较明确的差异化优势。
Q3:苹果的图像生成功能和 Gemini 相比有什么优势?
A:苹果图像娱乐场现已支持照片级真实感图像生成,提供更有引导性的独立应用体验;Gemini 应用同样具备图像生成能力,功能上相近。苹果的优势在于专属应用界面更直观,用户上手门槛更低。但两者在图像生成功能上均设有使用限制:苹果的图像生成有每日次数上限,谷歌则通过 Gemini Advanced 订阅提供进阶权限。说白了,各有各的收费逻辑,谁也别笑谁。
