苹果第三代基础模型解读:WWDC2026开发者五大必看要点
2026年6月8日,苹果正式推出第三代基础模型,同步将“Siri AI”品牌焕新。此次发布包含五款模型,最引人注目的是一个200亿参数的稀疏端侧模型(AFM 3 Core Advanced),每次提示仅激活1到4B参数,底层依赖苹果研究院称为Instruction-Following Pruning的技术。另一则消息则稍显低调,但对开发者而言分量更重:苹果最强的云端模型AFM 3 Cloud Pro,部署在Google Cloud内的NVIDIA GPU上,并利用Google Gemini前沿模型的输出进行了微调。苹果坚称该模型为自主研发;高管们也谨慎地划清界限——使用Gemini训练,并不等同于就是Gemini。此外,将端侧模型暴露给任意Swift应用的Foundation Models框架,现已支持图像输入。当然,所有这些在欧盟的iPhone/iPad以及中国大陆首发时均暂不可用。
五模型架构矩阵
苹果的研究博客明确列出了五个差异化的模型。本次命名较2024年“AFM-on-device / AFM-server”的二元分类清晰许多,也揭示了苹果期望开发者如何看待这套技术栈:端侧两层,Private Cloud Compute三层。详见下表:
模型
运行位置
规模
单次激活量
核心角色
AFM 3 Core
端侧
3B(稠密)
3B
基础文本处理与路由,支持快速自然语言理解
AFM 3 Core Advanced
端侧
20B(稀疏)
1–4B/提示
新一代Siri / 听写 / 语音合成;图像理解
AFM 3 Cloud
Private Cloud Compute
未公布
—
云端主力文本处理与图像理解
ADM 3 Cloud
Private Cloud Compute
未公布
—
图像生成(Image Playground、Reframe、Extend、Cleanup)
AFM 3 Cloud Pro
Google Cloud 中的 NVIDIA GPU(Private Cloud Compute 扩展)
未公布
—
复杂推理与Agent工具调用
云端三款模型的参数规模苹果均未公开披露,仅端侧两个模型公布了具体数据。这一点本身就值得关注——苹果显然更希望市场聚焦于端侧能力的突破。
20B稀疏模型:技术突破与行业意义
技术上最令人瞩目的当属AFM 3 Core Advanced。一个200亿参数的模型能够装入手机并完全本地运行,关键在于单次提示激活参数不超过约4B。实现方式是Instruction-Following Pruning(IFP),苹果研究院在2025年1月的arXiv论文中首次阐述。核心思路是:将稀疏性从训练时预设的静态结构,转变为由一个微型预测器实时读取提示,为当前请求动态选择要激活的FFN矩阵行列。论文的关键结果相当突出:他们的3B激活模型在数学与编程任务上,比3B稠密基线高出5–8个绝对百分点,并追平了9B稠密模型的表现。换言之,相同的3B激活算力,换来了9B级别的模型质量。
部署到生产环境,关键挑战落在内存层面:苹果将完整模型存储在闪存中,仅有少量“始终激活的共享专家”常驻DRAM,仅当预测器选中时,才将对应的专家调入DRAM。这便是20B模型能装入端侧设备且不过度消耗电量的方式。直白地说:苹果为iPhone装上了首款面向消费市场大规模量产的动态稀疏LLM。它并非经典意义上的MoE——没有学到的路由器在每个token上选择K-of-N专家——但可视为近亲,且实现工程化落地尚属首次。
值得注意是,苹果并未将AFM 3 Core Advanced与GPT-5.5、Claude Opus 4.8、Gemini 3.1 Pro、Qwen 3.7或Llama 4进行直接对比。所有对比均基于苹果2025年的基线模型。下方评测数据应被视为代际进步的佐证,而非竞品排名。
苹果内部人工评测的核心结论
苹果的评测方法采用盲测,与上一代AFM进行成对人工偏好对比。研究博客中摘录的数字如下:
评估维度
新模型偏好率
2025 基线偏好率
文本(AFM 3 Core,端侧)
45.6%
23.3%
文本(AFM 3 Cloud)
64.7%
8.7%
图像理解(AFM 3 Core)
>61%
—
图像理解(AFM 3 Cloud)
37.8%
9.6%
听写总体质量(AFM 3 Core Advanced)
44.7%
17.6%
Cloud Pro相较Cloud,文本偏好度提升约10%,数学任务提升14%,图像理解提升14%。新款端侧TTS的平均意见评分同样有所提升:
嗓音类型
当前 TTS
AFM 3 Core Advanced
通用
3.87
4.15
对话式
3.82
4.24
引用这些数字时需注意两个关键点:无第三方基准测试,未涉及MMLU、SWE-bench、GPQA等;苹果公布的所有数据均为与2025基线的偏好对比。此外,成对偏好评测对技术性任务的评估相对粗略——它衡量的是“人类是否更喜欢这个答案”,对聊天场景解释力较强,但对代码与推理任务的说服力明显不足。
Gemini之争:事实与争议
苹果与谷歌的合作衍生出两条并行的叙事线索,外界报道中一直未能对齐。两位苹果高管的原话如下:
“我们使用的Google Assistant数量是零。” — Craig Federighi,软件工程高级副总裁(9to5Mac)
“所有这些模型都是专为Apple Silicon定制构建,使用专有数据训练,并使用Gemini前沿模型的输出进行精调。” — Amar Subramanya,苹果AI副总裁(CNBC)
调和两者:苹果并未在生产环境运行Gemini来提供Apple Intelligence服务;苹果确实将Gemini的输出作为后训练(蒸馏式微调)的一部分。具体到AFM 3 Cloud Pro,多家报道描述了更深层次的谷歌参与——Gemini衍生的训练基础设施,苹果负责预训练和后训练,NVIDIA提供推理。苹果并未反驳此说法,但也没在正式场合主动提及。诚实的总结是:Gemini充当教师信号,而非运行时模型。这是2026年一个真实且在扩张的模式——前沿实验室训练教师模型,下游玩家进行蒸馏——而苹果是公开采用此模式的最大分发渠道。
Private Cloud Compute:现已部署至谷歌数据中心的NVIDIA平台
苹果Private Cloud Compute(PCC)于2024年上线时,展示了一套相当严格的安全架构:运行经过审计代码的Apple Silicon服务器,通过加密手段确保用户数据连苹果自身也无法访问。2026年的扩展令人意外:PCC如今也运行在谷歌云内部托管的NVIDIA GPU上,苹果声称相同的数据处理保障依然适用。两个相关细节值得标注:
为何采用谷歌的数据中心?报道显示,苹果曾试图在自家PCC硬件上运行新的Cloud Pro模型,但性能未达预期。谷歌云上的NVIDIA容量是最终可行的方案。
为何主题演讲中只字未提?苹果keynote提到了NVIDIA,但未提及谷歌。谷歌仅出现在研究博客及后续的高管采访中。苹果希望传达的品牌故事是“苹果模型、NVIDIA硬件、苹果隐私”。完整的供应链则更为复杂。对于评估苹果隐私承诺的开发者而言,工程核心在于加密验证链路,而非GPU的物理位置。底层迁移至谷歌云的NVIDIA平台并未打破这一机制——但确实意味着信任模型如今涉及更多供应商。
Foundation Models框架:2026年的关键更新
这是发布会中报道最少、但与开发者关系最直接的部分。Foundation Models框架于2025年首次推出,是一个Swift API,允许任何第三方应用直接调用苹果端侧约3B的模型——无需API密钥、无需网络连接、无需按token付费。2026年的更新带来了图像输入能力:开发者现在可以将图像与文本一同传给端侧模型,从而实现本地视觉任务(例如为照片配文、从收据中提取结构化数据、识别UI元素),全程无需云端参与。
框架擅长的领域:结构化输出(强类型Swift值,而非纯文本)、工具调用/function calling、隐私敏感的嵌入式智能(笔记摘要、端侧搜索、智能建议)、离线可靠性(不依赖网络)。框架设计上的不擅长领域:通用知识问答(它并非聊天机器人后端)、任何需要最新世界知识的场景、前沿推理任务、超长上下文或多步Agent工具调用任务。
针对一个2026年秋季发布的iOS应用,现实的混合模式是:端侧任务使用Foundation Models框架,因其快速、免费且支持离线;其余情况则fallback至云端模型。这种fallback路径正是多供应商网关发挥作用的地方——你希望OpenAI、Anthropic、Google、Qwen、DeepSeek都隐藏在同一个API背后,以便切换供应商而无需重新发布版本。
首发地区限制与兼容设备
地理限制比苹果以往的AI发布更为严格:
?? 欧盟:Siri AI在iPhone和iPad上首发不可用。Mac、Apple Watch、Vision Pro则包含在内。苹果给出的理由是数字市场法案合规工作仍在推进。
?? 中国大陆:所有Apple Intelligence,包括Siri AI,在获得监管批准前均不可用。
硬件门槛:iPhone 16系列、iPhone 15 Pro/15 Pro Max、搭载A17 Pro的iPad mini、M1或更新的iPad、M1或更新的Mac、Apple Vision Pro。Apple Watch上,watchOS 27支持Series 10、Series 11、Ultra 2、Ultra 3、SE 3——但Watch端的Apple Intelligence仍需配对iPhone 15 Pro/Pro Max或更新机型。
上线节奏:Siri AI将于2026年晚些时候以beta形式首发支持英语,随后逐步覆盖32个语言地区。语种覆盖包括英语(美/英/澳/印)、PFIGSCJK(葡/法/意/德/西/中/日/韩)、DNNSTV(丹/荷/挪/瑞/土/越)、AFIHHMPRTU(阿/芬/印尼/希/印地/马来/波/俄/泰/乌克兰)。
欧盟/中国的缺口意味着,Apple Intelligence在地理上正式成为部分产品——同样的硬件,根据Apple ID区域不同,功能表现会有明显差异,开发者文档也需按功能可用性进行分叉。
对开发者的实际操作意义
若你在2026年底计划推出AI功能,以下三点值得留意:
端侧LLM已跨过可用性门槛。一个20B稀疏模型运行在手机上,支持图像输入,对应用开发者免费,足以处理应用内AI任务的大部分需求——结构化数据提取、分类、嵌入式摘要、工具路由。原本为此付费调用云端API的应用,可以停止这一做法。
前沿任务依然属于云端。Cloud Pro的存在自有其理由。长上下文、Agent循环、前沿推理、多图像跨模态——所有这些通过云端LLM仍然更便宜、更强,或两者兼备。构建决策如今变为“什么不能在端侧运行”,而非“我需要多大的模型”。
多供应商接入是更安全的默认选择。苹果目前出货的端侧模型部分由Gemini蒸馏而来,云端则运行在谷歌云的NVIDIA平台。在模型层进行供应商绑定,连苹果都不再将其视为可选方案。如果你开发跨平台产品,在应用层仅押注单一模型供应商,这一赌注正越来越难以证明其合理性。
主线:苹果已将端侧LLM变为iOS上的基础能力。有趣的工作已向上游移动——转移至决定何时使用它、何时绕过它,以及如何在不将应用绑定在任何一家供应商身上的情况下实现这一点。
延伸阅读
2026年AI API高可用架构:多供应商网关故障转移方案
cc-switch:2026年CLI工具指南——同时对比Claude Code、Codex与Gemini
2026年AI模型选型指南:端侧、云端与前沿三层次选择策略
信源核对
Apple Machine Learning Research — Introducing the Third Generation of Apple’s Foundation Models(模型矩阵、IFP、评测数据,逐字摘录)
Apple Newsroom — Apple unveils next generation of Apple Intelligence, Siri AI, and more(硬件列表、语言列表、地区可用性)
9to5Mac — Federighi details Apple’s collaboration with Google for Siri AI(Federighi“Google Assistant用量为零”原话)
CNBC — Apple partnering with Google and Nvidia for most advanced AI model(Subramanya原话、NVIDIA-in-GCP安排)
AppleInsider — Apple’s new foundation models don’t contain a drop of Gemini(关于Gemini关系的独立解读)
MacRumors — Siri AI not available in EU/China initially(地区限制)
arXiv 2501.02086 — Instruction-Following Pruning for Large Language Models(IFP技术,苹果原论文)
MarkTechPost — Apple Researchers Introduce IFPruning(第三方IFP解读)