四台Mac Studio本地跑万亿参数大模型,对比云端集群测评
在刚刚落幕的WWDC2026上,LM Studio与苹果联合展示了突破性成果——仅凭四台Mac Studio组建的计算集群,便成功运行了月之暗面旗下的万亿参数级大模型Kimi K2.6。这一实践彻底颠覆了“万亿参数模型只能依赖云端GPU集群”的传统认知,使消费级硬件承载前沿AI推理从理论构想变为可落地的工程方案。
Kimi K2.6总计参数量达1万亿,采用MoE稀疏架构,激活参数为320亿,支持长上下文、多模态输入及智能体任务处理。演示环节中,四台Mac Studio借助苹果的内存共享与互联技术组成统一集群,合计约1.5TB的统一内存,恰好满足该巨型模型的推理负载。此前开发者实测表明,在类似配置下Kimi K2.6可实现约28 tokens/s的生成速度,且功耗远低于传统GPU方案。对本地推理场景而言,这一速率已具备极高的实用价值。
从iPhone直连本地集群,数据全程不出门
更值得关注的是,演示现场还展示了LM Studio的LM Link远程访问功能。用户可通过MacBook Neo笔记本和iPhone安全地远程连接至Mac Studio集群,与运行中的模型进行实时交互,所有数据及通信均保持在本地处理,完全不经过云端。这意味着,即便身处咖啡厅,仅凭一部手机也能操控办公室内的集群级AI算力,且数据全程不上云,隐私风险大幅降低。
LM Link已同步更新至LM Studio的Mac应用以及Locally AI的iOS应用中,支持端到端加密连接。这一设计让轻量设备用户随时都能调用集群级AI推理能力,同时彻底规避隐私泄露隐患。配合苹果Thunderbolt 5 RDMA等多设备内存共享技术,整个AI本地化部署生态的技术闭环正在快速成型。可以说,苹果的硬件互联能力正为本地推理铺就一条全新路径。
本次合作释放出明确信号:本地部署万亿参数大模型已不再是实验室里的遥远设想,而是正在走向开发者桌面的切实工程现实。随着苹果硬件互联能力的持续迭代,消费级设备承载大规模AI推理的性能边界,有望被不断拓宽。接下来的进展,值得持续追踪。