微软Mu小模型深度测评:端侧AI性能与效率的权威对比分析
上周,微软发布了一款名为“Mu”的新型生成式人工智能系统,它为我们勾勒出了一个颇具吸引力的未来图景:或许不久之后,从个人电脑到厨房里的烤面包机,我们都能用最自然的语言来直接操控。
简单来说,“Mu”能听懂你的日常指令。比如,你只需在电脑上输入或说出“打开暗黑模式”或“把鼠标指针调大一点”,它就能理解并立刻执行。目前,这项功能已经首次集成到了Windows 11的设置应用里,你可以通过语音或文字直接描述想要调整的具体设置,剩下的就交给它了。
本地而非云端
“Mu”最值得关注的一点在于,它并非运行在云端的大型语言模型。恰恰相反,它是一个参数仅3.3亿的小型语言模型,专门设计在一种叫做神经处理单元的专用AI芯片上本地运行。
这种NPU芯片,正是微软、戴尔、惠普等厂商自2024年6月起推出的新款Copilot+ PC的标配。换句话说,目前只有这些新电脑才能体验到“Mu”以及Windows 11的其他先进AI功能。它的全部计算都在你的设备上完成,即便断网也能照常工作。
这得益于Copilot+ PC的NPU能提供每秒至少40万亿次运算的能力。微软与高通、AMD和英特尔紧密合作,确保“Mu”能在各家芯片的NPU上流畅运行。其底层采用了一种“变换器编码器-解码器”架构:编码器负责将你的语言压缩成机器能理解的形式,解码器则将其转化为正确的操作指令。这种设计在执行更改设置这类任务时,效率比旧模型高得多。
为了在NPU有限的内存和速度下达到最佳性能,“Mu”在技术细节上做了大量优化。比如,它利用旋转位置嵌入来保持词序,采用双层归一化确保稳定性,并通过分组查询注意力机制来高效利用内存。这些努力使得“Mu”每秒能处理超过100个标记,响应延迟低于500毫秒——这个速度,比起OpenAI的ChatGPT这类云端大模型,优势相当明显。
那么,如此高效的模型是如何炼成的?微软在360万个专注于Windows设置及相关任务的示例上对“Mu”进行了训练,训练在Azure平台上借助NVIDIA A100 GPU完成。之后,又通过微调和量化技术,大幅压缩了模型体积,使其能适配不同厂商的NPU。最终,“Mu”的体积只有微软Phi-3.5-mini模型的十分之一左右,但在其专精的任务上,表现却毫不逊色。
小模型而非大模型
“Mu”的开创性在于,它是首个完全在主流消费设备上运行、专为通过自然语言控制系统设置而设计的小型语言模型。这标志着一个清晰的行业转向。
当然,设备端AI并非新概念。苹果的iPhone、iPad和Mac都配备了神经引擎NPU,用于驱动Siri和各类智能功能。三星的旗舰手机也有定制的NPU和Galaxy AI。谷歌的Chromebook Plus同样支持设备端AI。但它们都缺少一个像“Mu”这样深度集成、能全面灵活控制系统设置的小型语言模型。
这种本地化处理带来的好处是双重的:一是隐私,你的数据无需离开设备,这让遵守欧美等地严格的隐私法规变得更容易;二是即时性,响应几乎无延迟。整个行业朝这个方向发展的逻辑也很清晰:如今的小型语言模型已经足够强大,能在特定任务上媲美云端大模型,同时成本更低、能耗更少,还能针对特定场景进行深度定制。
事实上,NPU已经无处不在,从新款手机、平板到家用电器都能找到它的身影。这些芯片专为高效、低功耗地运行神经网络而设计,旨在让智能功能摆脱对稳定网络的依赖。
可以预见,运行在NPU上的小型语言模型,其意义将远超个人电脑和手机。随着其性能提升和成本下降,汽车仪表盘、恒温器、洗衣机乃至拖拉机,都可能彻底告别繁琐的嵌套菜单。未来,你或许只需走进厨房,对烤面包机说“20分钟后把我的贝果烤得焦一点”,再告诉咖啡机“做一杯拿铁”。早餐后,在家庭办公室里,你就能通过与各种设备专属的小型语言模型对话,远程操控整个物联网世界。
不过,这并非大型语言模型的终结。一个更可能的未来是协同:这些专精于设备控制的小型模型,将与ChatGPT等大型语言模型配合工作。前者负责执行具体、本地的操作,后者则提供广泛的知识、代码编写或商务沟通支持。两者结合,才能真正开启无缝、智能的人机交互新时代。
