权威端侧AI性能优化排行榜:谷歌Gemma 4与Arm联手深度测评移动应用体验
实时的智能响应、不中断的通信连接、深度适配用户习惯的交互体验——这些对智能终端提出的功能诉求,正在重新定义全球数十亿智能手机用户的“基础配置”。在严格的功耗限制内,高效运行高性能端侧AI模型,并将即时、智能的体验规模化铺开,这正是释放下一轮AI增长潜力的关键路径。
谷歌近期发布的Gemma 4模型,正是瞄准这一方向。其核心目标直接明确:帮助开发者在优化后的性能基础上,更便捷地将不断进化的AI能力集成到用户每日使用的应用程序中。当然,要将这一进程在全球智能手机规模上落地,单靠模型本身仍显不足,背后需要一套扎实的计算基础架构来支撑——在整个Android生态中,Arm正是贯穿始终的底层基础设施。
本次发布的Gemma 4在性能与效率层面均有显著突破,尤其在多模态应用场景的扩展上表现突出——包括推理任务、智能体工作流,以及融合视觉与音频的综合处理,这些都是当前Arm设备上最受关注的演进方向。跨文本、音频、图像的能力增强、更广泛的语言覆盖范围,再加上为实时辅助体验构建的基础架构,使得Gemma 4在几乎不增加内存占用的前提下,能够在设备端实现响应更快、上下文感知更精准的交互。
在Arm早期工程测试中,SME2技术在运行Gemma 4工作负载时交出了令人瞩目的成绩单。针对Gemma 4 E2B(等效20亿参数)模型的初步测试结果显示:预填充环节(处理用户输入)平均实现5.5倍加速,解码环节(生成响应)最高可达1.6倍提升。这组数据清晰印证了Armv9 CPU在端侧AI工作负载上的实际潜力。需要指出的是,这些测试已覆盖即将推出的谷歌XNNPACK与Arm KleidiAI补丁。
那么,这些改进落实到实际应用中会是怎样的体验?可以看看Envision的案例。这家专注无障碍服务的公司,为盲人及低视力用户开发了一款应用,以往的场景解析功能依赖云端连接。但在本次原型测试中,Gemma 4直接在搭载SME2功能的Arm CPU上本地运行。用户拍摄照片后,设备端即可获取详细的场景描述,无需网络连接,敏感数据也无需上传至云端。
这些基于Arm CPU的探索,充分展现了Arm计算平台在灵活性方面的广度,以及在CPU与异构计算路径上持续创新的潜力。
最终带来的结果是什么?更低的延迟、更强的隐私保护,以及在任意网络环境下都能保持稳定一致的体验。从依赖云端到本地推理的转变,对移动应用而言是一次深刻变革——它能够降低开发者的基础设施成本,提升用户侧的稳定性,更关键的是,为实时应用场景打开了全新的可能性。
“Envision非常高兴能与Arm和谷歌合作,将强大的无障碍体验直接带到智能手机上。在支持SME2的Arm CPU上本地运行Gemma 4等视觉理解模型,为盲人及低视力用户带来了可靠、低延迟的场景描述和视觉问答能力。对我们的用户群体而言,离线使用这些功能具有极其重要的意义,因为这意味着无论身处何处,技术都能正常工作;同时,在设备端完成更多处理也进一步保护了用户隐私。”——Envision首席执行官 Karthik Mahadevan
Envision只是一个样本,但它揭示了一个清晰趋势:随着越来越多的开发者接入Gemma 4,端侧AI将从个别特例演变为常态,最终成为默认的架构选择。
SME2到底是个什么技术?
Armv9架构堪称迄今为止最安全、覆盖最广、最先进的指令集之一。而SME2(可扩展矩阵扩展2)正是该架构中的关键CPU指令集——它专门用于在智能手机的功耗约束下加速矩阵密集型的AI工作负载。目前,SME2已集成在最新Android手机所采用的Arm C1 CPU中,能够有效释放更高的持续性能并提升能效比。
更关键的是,开发者几乎无需改动代码、调整模型或变更部署方案即可获取这些优势。通过Arm KleidiAI——Arm的软件加速层,SME2的能力已嵌入到谷歌XNNPACK、LiteRT、MediaPipe等主流框架中。只要面向基于SME2的Arm Android设备进行开发,开箱即可获得性能优化。
落实到用户体验层面,这些软件层的提升直接表现为更快的响应速度、更流畅的持续交互、更稳定的端侧AI运行。即便模型能力持续增强,电池续航和热稳定性也能维持在理想水平。
“要在整个Android生态系统中高效部署Gemma 4,需要在硬件与软件层面展开深度协作。我们与Arm的合作体现了双方对推动端侧AI发展的共同承诺——将Armv9架构及SME2等内置加速技术的优势与Android操作系统深度融合,以大规模释放更强的性能与效率。我们携手合作,让开发者更轻松地为用户提供快速、响应灵敏且保护隐私的AI体验,且无需修改现有应用程序。”——谷歌Android工程总监 Sandeep Patil
随着越来越多的应用将AI迁移至设备端,Arm和谷歌的目标非常明确:为开发者提供足够便捷的性能优化工具和清晰的指引,让Gemma 4在所有基于Arm的移动设备上都能加速运行。
移动AI的未来,不在于模型体量有多大,而在于它能够多高效、多安全、多广泛地跑遍整个Android生态。通过本次合作,端侧AI的红利正逐步落向全球数十亿Android智能手机用户。
注:音频功能仅适用于E2B(等效20亿参数)和E4B(等效40亿参数)版本。
Q&A
Q1:Gemma 4在端侧AI方面有哪些性能提升?
A:根据Arm早期工程测试,在搭载SME2技术的设备上运行Gemma 4 E2B模型时,预填充环节平均加速5.5倍,解码环节最高提速1.6倍。这些提升源自Armv9架构中的SME2指令集,并通过Arm KleidiAI软件加速层自动生效,开发者无需修改现有代码或模型即可直接获得性能优化。
Q2:Arm的SME2技术是什么?它如何帮助Gemma 4运行?
A:SME2(可扩展矩阵扩展2)是Armv9架构中的一套先进CPU指令集,专为在智能手机功耗范围内加速矩阵密集型AI工作负载而设计。它已内置于最新Android手机所采用的Arm C1 CPU中。通过Arm KleidiAI软件层与谷歌XNNPACK等运行时库的集成,开发者只需面向支持SME2的Arm设备开发,即可自动获得Gemma 4的性能优化,无需额外改动代码。
Q3:Gemma 4端侧运行对用户隐私有什么好处?
A:Gemma 4在设备端本地运行意味着用户数据无需上传至云端进行处理,有效降低了隐私泄露风险。以Envision应用为例,用户拍照后可直接在设备上获取场景描述,敏感图像数据不会离开本地设备。此外,本地推理还消除了对网络连接的依赖,即使在离线状态下也能正常使用,进一步提升了用户体验的稳定性与可靠性。
