明略科技正式开源Cider端侧推理框架与Mano-P模型

2026-06-20阅读 0热度 0

开源

最近，明略科技正式将其自研的Cider推理加速SDK进行开源，同时推出了一个端侧GUI智能体模型——Mano-P。在此之前，他们已经开源了Mano-CUA skill。此次Mano-P模型的公开，直观地展示了端侧模型在真实业务闭环中能够释放的实际价值。而Cider框架则从计算算子和硬件调用机制的底层入手，让端侧大模型在macOS系统本地算力下运行得更快、内存占用更低。 **Mano-P：端侧智能体落地能力的实证** 先聚焦Mano-P。这是明略科技自主研发的端侧GUI-VLA智能体模型，能够通过纯视觉方式理解并操作图形界面，无需依赖传统API对接，也不局限于浏览器环境，可以直接作用于桌面软件、网页系统，乃至更复杂的图形化工作流。复杂图形界面的交互，天然要求模型具备强大的多模态视觉理解能力。换言之，模型需要持续、高频地处理屏幕截图，精准定位微小的界面元素，并根据视觉反馈执行后续操作。如果沿用传统的云端大模型架构，这种高频视觉交互带来的token成本消耗会高得惊人。相比之下，参数规模仅为4B的Mano-P端侧模型，在CUA任务上的准确率可以媲美云端大模型，而云端接口的调用成本直接降为零——在完全离线的本地模式下，所有应用截图、交互过程与任务数据都严格锁定在用户本地设备中，隐私安全由此成为一种“物理隔离”的必然。 **Cider：面向Apple Silicon的端侧推理加速框架** 再来看Cider。决定端侧模型实用性的核心指标，无非是本地推理速度、硬件利用率、内存占用、接入成本和长期稳定性。推理速度太慢，AI交互体验会直接崩塌；内存占用过高，模型很难在主流设备上广泛部署；接入成本居高不下，企业和开发者也无法将端侧能力快速融入业务。 Cider正是针对这些痛点而设计的。作为明略科技自研并开源的SDK，它基于Apple MLX生态构建，专为macOS和Apple Silicon打造。它精准补足了MLX原生框架在激活量化与特定张量计算能力上的缺失，是一套面向广泛开源模型生态的高效端侧推理框架。目前，Apple MLX原生架构已支持W4A16、W8A16等权重量化模式。在此基础上，Cider进一步提供了W8A8和W4A8推理路径。通过深度融合在线激活量化、INT8 TensorOps计算、量化矩阵乘和反量化流程，Cider充分释放了Apple Silicon的底层计算潜力，让开源模型不仅“能在Mac上跑”，还能以更高效率、更低内存占用的方式流畅运行。实测数据极具说服力：Cider在W8A8模式下的算子速度，比原生MLX模式提升了约1.4到1.9倍，具体表现取决于Batch Size。而在W4A8模式下，Cider比W8A8模式进一步降低了50%的权重内存占用，在高并发场景下还能与原生MLX的全精度W4A16方案在计算速度上持平甚至抗衡。针对Qwen3-VL系列主流视觉语言模型，Cider在端到端预填充场景中展现出了显著的加速效果。在不同长度提示词下，相比原生MLX W8A16模式，Cider的W8A8 PC模式为Qwen3-VL-4B模型带来了约17%到22%的预填充速度提升；而在Qwen3-VL-2B模型上，这一提升更是跃升至约57%到61%。此外，Cider还针对多图推理中的RoPE位置处理等技术难点进行了深度优化与非侵入式修复，大幅提升了复杂视觉任务的推理稳定性。考虑到视觉交互任务通常需要处理更长的上下文、更复杂的截图信息以及更密集的推理请求，这种量级上的性能跃升，对于端侧VLM和GUI智能体而言尤为关键。 Cider还在积极探索基于M4芯片的Apple Neural Engine与GPU之间的异构协同。此前，端侧大模型推理主要依赖GPU，Apple芯片中Neural Engine的潜力并未被充分挖掘。Cider通过引入ANE+GPU异构张量并行机制，让两类计算单元协同工作，在部分测试场景下额外收获了约3%到16%的加速效果。 **极简接入，让更多开源模型获得本地加速能力** Cider可以无缝兼容任意LLM模型，涵盖Qwen、Llama、Mistral以及Qwen3-VL等VLM模型，并内置了OpenAI兼容的VLM推理服务。企业和开发者无需重写模型结构，只需极少量代码适配即可便捷接入。在预填充阶段，Cider支持启用W8A8 INT8 TensorOps，大幅提升计算速度；而在解码阶段，框架会智能回退到原有权重路径，避免引入不必要的额外开销。无论是企业想在内部网络部署高度定制化的本地大语言模型，还是开发者想构建垂直领域的私有化AI应用矩阵，Cider都提供了一套坚实、可靠且极具延展性的底层推理基础设施。 **面向私有化AI，构建本地智能基础设施** 过去，大模型应用大多依赖云端算力。云端模型规模化能力强，但在企业级场景中，数据传输成本、隐私安全、调用费用和网络依赖都是绕不开的问题。尤其是在涉及内部系统、核心业务流程、敏感界面截图和任务数据的场景下，端侧AI能让模型更靠近数据产生的地方，在降低传输风险的同时，提升响应速度和自主可控性。 Cider通过提升本地推理效率，让“数据不出设备”这一理念更接近真实可用的工程方案。当本地模型具备更好的推理性能，企业就有底气在更多场景中探索私有化AI——例如本地智能助手、企业内部Agent、离线任务执行、端侧多模态分析以及高保密要求的自动化流程。后续，明略科技还将开源完整的Mano-Action训练方法和相关工具，帮助企业和开发者基于自身数据训练定制化的GUI智能体模型，或者在Mano-Action基础上开发新的训练技术。这相当于全面赋能企业定制与算法创新。明略科技正将自身在智能体、多模态模型和企业级AI应用领域的深厚积淀，进一步向下延伸到底层推理框架与端侧模型研发的根基上。最终目标，是为广大开发者与企业用户提供一套完整、开箱即用的私有化人工智能基础设施，让AI真正走向私有化部署、低成本运行与可信落地。

明略科技正式开源Cider端侧推理框架与Mano-P模型

相关阅读

最新教程

最新资讯