明略科技正式开源Cider端侧推理框架与Mano-P模型 2026-06-20阅读 0热度 0 开源 最近,明略科技正式将其自研的Cider推理加速SDK进行开源,同时推出了一个端侧GUI智能体模型——Mano-P。在此之前,他们已经开源了Mano-CUA skill。此次Mano-P模型的公开,直观地展示了端侧模型在真实业务闭环中能够释放的实际价值。而Cider框架则从计算算子和硬件调用机制的底层入手,让端侧大模型在macOS系统本地算力下运行得更快、内存占用更低。 **Mano-P:端侧智能体落地能力的实证** 先聚焦Mano-P。这是明略科技自主研发的端侧GUI-VLA智能体模型,能够通过纯视觉方式理解并操作图形界面,无需依赖传统API对接,也不局限于浏览器环境,可以直接作用于桌面软件、网页系统,乃至更复杂的图形化工作流。 复杂图形界面的交互,天然要求模型具备强大的多模态视觉理解能力。换言之,模型需要持续、高频地处理屏幕截图,精准定位微小的界面元素,并根据视觉反馈执行后续操作。如果沿用传统的云端大模型架构,这种高频视觉交互带来的token成本消耗会高得惊人。 相比之下,参数规模仅为4B的Mano-P端侧模型,在CUA任务上的准确率可以媲美云端大模型,而云端接口的调用成本直接降为零——在完全离线的本地模式下,所有应用截图、交互过程与任务数据都严格锁定在用户本地设备中,隐私安全由此成为一种“物理隔离”的必然。 **Cider:面向Apple Silicon的端侧推理加速框架** 再来看Cider。决定端侧模型实用性的核心指标,无非是本地推理速度、硬件利用率、内存占用、接入成本和长期稳定性。推理速度太慢,AI交互体验会直接崩塌;内存占用过高,模型很难在主流设备上广泛部署;接入成本居高不下,企业和开发者也无法将端侧能力快速融入业务。 Cider正是针对这些痛点而设计的。作为明略科技自研并开源的SDK,它基于Apple MLX生态构建,专为macOS和Apple Silicon打造。它精准补足了MLX原生框架在激活量化与特定张量计算能力上的缺失,是一套面向广泛开源模型生态的高效端侧推理框架。 目前,Apple MLX原生架构已支持W4A16、W8A16等权重量化模式。在此基础上,Cider进一步提供了W8A8和W4A8推理路径。通过深度融合在线激活量化、INT8 TensorOps计算、量化矩阵乘和反量化流程,Cider充分释放了Apple Silicon的底层计算潜力,让开源模型不仅“能在Mac上跑”,还能以更高效率、更低内存占用的方式流畅运行。 实测数据极具说服力:Cider在W8A8模式下的算子速度,比原生MLX模式提升了约1.4到1.9倍,具体表现取决于Batch Size。而在W4A8模式下,Cider比W8A8模式进一步降低了50%的权重内存占用,在高并发场景下还能与原生MLX的全精度W4A16方案在计算速度上持平甚至抗衡。 针对Qwen3-VL系列主流视觉语言模型,Cider在端到端预填充场景中展现出了显著的加速效果。在不同长度提示词下,相比原生MLX W8A16模式,Cider的W8A8 PC模式为Qwen3-VL-4B模型带来了约17%到22%的预填充速度提升;而在Qwen3-VL-2B模型上,这一提升更是跃升至约57%到61%。 此外,Cider还针对多图推理中的RoPE位置处理等技术难点进行了深度优化与非侵入式修复,大幅提升了复杂视觉任务的推理稳定性。考虑到视觉交互任务通常需要处理更长的上下文、更复杂的截图信息以及更密集的推理请求,这种量级上的性能跃升,对于端侧VLM和GUI智能体而言尤为关键。 Cider还在积极探索基于M4芯片的Apple Neural Engine与GPU之间的异构协同。此前,端侧大模型推理主要依赖GPU,Apple芯片中Neural Engine的潜力并未被充分挖掘。Cider通过引入ANE+GPU异构张量并行机制,让两类计算单元协同工作,在部分测试场景下额外收获了约3%到16%的加速效果。 **极简接入,让更多开源模型获得本地加速能力** Cider可以无缝兼容任意LLM模型,涵盖Qwen、Llama、Mistral以及Qwen3-VL等VLM模型,并内置了OpenAI兼容的VLM推理服务。企业和开发者无需重写模型结构,只需极少量代码适配即可便捷接入。 在预填充阶段,Cider支持启用W8A8 INT8 TensorOps,大幅提升计算速度;而在解码阶段,框架会智能回退到原有权重路径,避免引入不必要的额外开销。无论是企业想在内部网络部署高度定制化的本地大语言模型,还是开发者想构建垂直领域的私有化AI应用矩阵,Cider都提供了一套坚实、可靠且极具延展性的底层推理基础设施。 **面向私有化AI,构建本地智能基础设施** 过去,大模型应用大多依赖云端算力。云端模型规模化能力强,但在企业级场景中,数据传输成本、隐私安全、调用费用和网络依赖都是绕不开的问题。尤其是在涉及内部系统、核心业务流程、敏感界面截图和任务数据的场景下,端侧AI能让模型更靠近数据产生的地方,在降低传输风险的同时,提升响应速度和自主可控性。 Cider通过提升本地推理效率,让“数据不出设备”这一理念更接近真实可用的工程方案。当本地模型具备更好的推理性能,企业就有底气在更多场景中探索私有化AI——例如本地智能助手、企业内部Agent、离线任务执行、端侧多模态分析以及高保密要求的自动化流程。 后续,明略科技还将开源完整的Mano-Action训练方法和相关工具,帮助企业和开发者基于自身数据训练定制化的GUI智能体模型,或者在Mano-Action基础上开发新的训练技术。这相当于全面赋能企业定制与算法创新。 明略科技正将自身在智能体、多模态模型和企业级AI应用领域的深厚积淀,进一步向下延伸到底层推理框架与端侧模型研发的根基上。最终目标,是为广大开发者与企业用户提供一套完整、开箱即用的私有化人工智能基础设施,让AI真正走向私有化部署、低成本运行与可信落地。