面壁智能发布 MiniCPM-o 2.6 全模态模型，号称“端侧 GPT-4o”

2026-05-01阅读 0热度 0

其他

面壁智能发布MiniCPM-o 2.6全模态模型，号称“端侧GPT-4o”

AI模型轻量化竞争，又迎来一个标志性节点。面壁智能近日正式推出了旗下“小钢炮”系列的新成员——MiniCPM-o 2.6端侧全模态模型。别看这款模型的总参数量控制在8B级别，但其官方公布的性能对标目标却相当大胆：直接叫板GPT-4o与Claude-3.5-Sonnet这类顶级商用模型。

端到端全模态架构，性能对标顶级闭源模型

这款模型的核心看点，在于其采用的端到端多模态架构。简单来说，它能在一个统一的框架内，同时消化和理解文本、图像、音频乃至视频等多种格式的数据输入，并生成高质量的文本或语音回应。这种设计思路，正是当前多模态大模型演进的主流方向。

官方给出的评测结果颇为亮眼：在视觉理解、语音交互及多模态流式响应能力上，MiniCPM-o 2.6声称已经达到了GPT-4o-202405版本的水平。这意味着，在开源社区里，它很可能成为了当前模态支持最全面、综合性能最突出的选项之一。

不只是对话：情感控制与声音克隆成为亮点

除了基础的多模态理解与生成，MiniCPM-o 2.6在交互体验上也做了不少文章。它支持中英双语语音对话，并且用户可以配置不同的声音特性。更进阶的功能还包括对生成语音的情感、语速和风格进行细致调控，甚至能够实现端到端的声音克隆和深度的角色扮演。这些能力让它在人机交互的拟真度和趣味性上迈出了一大步。

打破设备限制：iPad上的实时多模态交互

另一个值得关注的突破是设备兼容性。官方强调，MiniCPM-o 2.6是首个能够在iPad这类移动端侧设备上，实现多模态实时流式交互的大模型。这背后的优化功不可没，它让高性能的多模态AI体验不再局限于云端或高性能工作站，真正向随身设备普及。

性能数据提供了有力支撑。在OpenCompass榜单上，该模型综合八个主流多模态评测基准，取得了平均70.2的得分。尤其引人注目的是，在单张图像理解这一关键任务上，它以8B的“小巧身材”，超越了GPT-4o-202405、Gemini 1.5 Pro和Claude 3.5 Sonnet等一众参数规模大得多的闭源商业模型。

开源可获取

目前，模型及相关资源已面向社区开源：

GitHub：https://github.com/OpenBMB/MiniCPM-o
huggingface：https://huggingface.co/openbmb/MiniCPM-o-2_6

面壁智能发布 MiniCPM-o 2.6 全模态模型，号称“端侧 GPT-4o”