端侧AI算力爆发:需求、模型与芯片的深度解析与趋势榜单
端侧算力的真正引爆点,可能并非我们熟悉的手机或电脑,而是那些具备自主行动能力的机器人。
国盛证券通信研究团队近期发布深度报告,从需求、模型、芯片三个维度系统剖析了端侧算力的最新动态,并指出一个核心趋势:端侧算力正迎来关键的“奇点”时刻。
这一判断源于对过往预测的复盘。两年前,该团队曾预判手机、PC等设备的本地算力将快速增长。然而现实是,这些设备的AI功能仍高度依赖云端,端侧算力并未实现预期中的规模放量。
端侧算力,指的是在用户终端设备(如手机、AI眼镜、PC、智能家居及机器人)本地完成的数据处理能力,无需全程依赖云端服务器。报告用两句话总结了核心观察:“切勿低估云端模型的能力边界”,以及“真实需求并非凭空想象”。
云端能力过强,压制了传统端侧需求
过去三年,云端大模型的进化速度远超行业预期。随着“超节点”、“PD分离”等先进算力架构的部署,云端模型在能力飙升的同时,单位计算成本正加速下降。
以文生图为例:三年前,行业还在尝试在端侧部署Stable Diffusion,当时端侧仅能生成逻辑粗糙的512×512基础图像。如今,云端GPT-4o等模型已能在10秒内生成细节丰富的4K高分辨率图像,能力全面超越端侧。
支撑端侧算力的三大传统理由——隐私性、低成本、低时延——在云端强势进化下逐一受到挑战。报告认为,“隐私性”和“低成本”需求正被证伪,真正站得住脚的或许只剩“低时延”一项。
但这里的关键低时延,并非指人类等待AI回复的速度。如今,像腾讯混元T1这样的模型,吐字速度已达每秒60-80个token,首字响应近乎瞬时,早已低于人类的舒适感知区间。
报告强调的低时延,特指设备对外部信号的内生处理速度。人脑完成从视觉感知到运动反应的周期约为180-200毫秒;而一个设备从接收信号、上传云端解析、再传回本地执行,往往需要2-5秒以上——若涉及图片等多模态信号,耗时更长。
这正是云端算力无法触及的物理盲区。报告做了一个生动类比:若将人体神经替换为无线信号,将大脑替换为云端算力,整个处理链路的稳定性和延迟将被无线通信距离显著拉长。
真实需求何在?在于能够行动的机器人
锁定“低时延”这一核心命题后,真正的需求方向变得清晰:让“类人终端”具备更接近人类的实时反应能力。
报告将当前类人终端按智能层级分为四类:
第一类:摄像头等感知硬件,需处理更多路信号、运行更精细的识别模型。
第二类:工具机器人(如割草机、泳池清洁机),需识别更复杂的场景。例如,割草机器人若能识别宠物粪便、石块、积雪、落叶,就能进化为全年可用的“庭院机器人”。
第三类:智能汽车,需理解各种异形障碍物和极端复杂的道路场景。
第四类:人形机器人,需实时理解物理世界并产生互动,其输入涵盖视觉、听觉、触觉,输出则是复杂的肢体动作。
报告的核心判断是:本轮端侧需求并非资本市场的单相思,而是“客户需求增长与行业能力进化形成的闭环结果”。割草机器人、送餐机器人、无人驾驶汽车的普及,让用户在接受基础功能后,自然提出了更高的智能化要求。
模型三级演进:从“识别物体”到“预判未来”
需求侧的演进,离不开模型能力的支撑。报告清晰地梳理了端侧视觉模型的进化路径。
第一代:YOLO模型
在大模型时代之前,机器视觉主要依赖基于CNN算法的YOLO模型。其原理是将图像划分为网格,让每个格子负责预测其中的物体。这好比经验丰富的保安快速扫视人群,只要某个格子内大概率出现“车”或“人”的特征,便立即画框标出。其优势是速度快,但硬伤明显:难以处理异形物体和3D画面,也无法理解物品间的逻辑关联。
第二代:Vision Transformer(ViT)
大模型思路引入视觉领域后,ViT打开了新的天花板。它将图像切分为小方块,像进行阅读理解一样,思考每个图像碎片与全图其他部分的关系。形象地说,当它识别到左上角的“猫耳朵”时,能通过逻辑关联预判右下角可能存在的“猫尾巴”,即使二者相距甚远。
ViT模型对算力需求更高,这恰恰打通了端侧算力升级的商业逻辑——更强的本地算力能直接转化为更强的终端能力,而非“空有算力却无法提升体验”。
第三代:VLM→VLA→世界模型
智能驾驶的发展加速了这一演进。
VLM(视觉-语言模型):能看懂图像并翻译成语义信息,相当于“坐在副驾的解说员”,将路况转化为机器可理解的“情报”。
VLA(视觉-语言-动作模型):在VLM基础上加入“动作”维度,直接从视觉感知输出控制指令,例如“方向盘左打10度”、“油门踩下20%”,实现从感知到执行的端到端控制。英伟达近期已发布开源VLA模型Alpamayo。
世界模型:更进一步,引入了预测机制。它在执行动作前,会预演未来几秒的多种可能场景,“通过生成未来的视频画面来评估风险,从而在无数‘平行宇宙’中选出最安全的路径”。
机器人前沿:GEM模型
相比智能驾驶,让机器人理解并与物理世界互动的难度又提升了一个量级。智能车的核心目标是“避免碰撞”,而机器人则必须实时与外界进行物理和语言的交互。
报告认为,GEM(Grounding Embedding Model)是解决这一难题的可能路径。简言之,它能将机器人的感知数据(如摄像头画面、激光雷达点云)和高层指令(如“把蓝色的杯子递给我”)映射到同一特征空间,让机器人即使从未见过某物体,也能通过语义理解完成任务。谷歌的RT-2模型已在探索这一方向,试图将图像、动作、语言全部转化为统一的“token”来实现对齐。
报告同时指出,GEM模型当前的主要痛点在于不同模态信号的对齐,以及灾难性遗忘、模态鸿沟等问题,“不仅需要模型工程的持续优化,在未来执行层面,也需要专门的算力芯片架构进行配合”。
芯片路线之争:NPU遭遇瓶颈,GPGPU向下渗透
模型需求明确后,芯片成为最终的落地环节。报告详细分析了NPU与GPGPU两条技术路线的优劣。
NPU:从YOLO起家,遭遇架构瓶颈
NPU的第一波放量源于YOLO模型——安防摄像头、初级自主移动机器人大量搭载了NPU芯片。瑞芯微的RK系列凭借性价比和低功耗成为主流选择,其营业收入从2016年的12.98亿元增长至2025年的44.02亿元。
但进入大模型时代,NPU遇到了架构层面的硬约束。在扫地机器人等低功耗场景下,若要运行以ViT为基座的模型替代YOLO,算力需求将接近100 TFLOPS。更关键的是,NPU缺少CUDA CORE,所有指令需由CPU下发,而在端侧功耗和成本限制下无法使用高性能CPU。这导致一个困境:“一旦在较弱的CPU下挂载过多NPU核,用于AI任务的指令就会占据CPU所有通信总线,从而导致设备宕机。”
当前有两条破局路径:
高通跃龙IQ10:换装更强的CPU和更大面积的NPU核,并融合部分GPU的任务调度结构。
瑞芯微RK182x:采用3D-DRAM+协处理器双轨并行,通过堆叠封装加大NPU与存储间的带宽,同时将AI推理任务从主芯片解放,缓解总线拥堵。
GPGPU:从云端继承,生态优势放大
相比NPU,GPGPU走向端侧的路径更为顺滑。云端GPGPU本就是全功能芯片,走向端侧只需按需缩减芯片面积和核心数量,不存在NPU面临的架构改造难题。
英伟达的智能驾驶业务收入从2024财年的5.36亿美元增长至2026财年的23.49亿美元,其Orin、Thor系列已推出覆盖不同价位和算力段的产品线。
但GPGPU的核心优势不止于硬件,更在于其强大的生态。报告指出,大部分端侧模型的预训练和微调都需借助CUDA生态完成,“若在端侧使用GPGPU架构,无论是部署速度还是最终效果,都会远超需要转译的NPU环境”。同时,英伟达在FP4等低精度推理方面已有成熟方案,可直接下放至端侧,而NPU在此领域的追赶则较为艰难。
报告的结论是:看好GPGPU架构在端侧的渗透率持续提升。但英伟达高昂的售价注定其不会成为市场唯一选择,这也为高通(凭借通信与计算融合的SOC方案)和国内芯片公司(以性价比切入下沉市场)留出了竞争空间。
投资布局:聚焦芯片、模组、存储三条主线
报告将端侧算力的投资机会分为三个主要环节:
芯片:这是价值量提升最大的环节。需关注NPU的迭代与GPGPU的向下渗透。报告特别指出,在端侧设备中,算力成本的占比将显著提升,“这一逻辑与云端基础设施建设类似”。
模组:报告称之为“旱涝保收的中间环节”。端侧算力客户极度分散,模组公司承担着连接上游芯片与下游万千用户的桥梁作用。无论哪种芯片路线最终胜出,模组厂商都能从中受益。在IoT时代已实现全球市场份额“东升西落”的中国模组公司,被认为不会缺席本轮增长。
存储:3D-DRAM是报告重点提及的新方向。端侧芯片的推理能力同样受内存大小和带宽制约,3D-DRAM通过将DRAM与NPU进行堆叠封装,能在低成本、低功耗的前提下有效提升带宽。












