端侧AI算力爆发：需求、模型与芯片的深度解析与趋势榜单

2026-05-19阅读 0热度 0

芯片

端侧算力的真正引爆点，可能并非我们熟悉的手机或电脑，而是那些具备自主行动能力的机器人。

国盛证券通信研究团队近期发布深度报告，从需求、模型、芯片三个维度系统剖析了端侧算力的最新动态，并指出一个核心趋势：端侧算力正迎来关键的“奇点”时刻。

这一判断源于对过往预测的复盘。两年前，该团队曾预判手机、PC等设备的本地算力将快速增长。然而现实是，这些设备的AI功能仍高度依赖云端，端侧算力并未实现预期中的规模放量。

端侧算力，指的是在用户终端设备（如手机、AI眼镜、PC、智能家居及机器人）本地完成的数据处理能力，无需全程依赖云端服务器。报告用两句话总结了核心观察：“切勿低估云端模型的能力边界”，以及“真实需求并非凭空想象”。

云端能力过强，压制了传统端侧需求

过去三年，云端大模型的进化速度远超行业预期。随着“超节点”、“PD分离”等先进算力架构的部署，云端模型在能力飙升的同时，单位计算成本正加速下降。

以文生图为例：三年前，行业还在尝试在端侧部署Stable Diffusion，当时端侧仅能生成逻辑粗糙的512×512基础图像。如今，云端GPT-4o等模型已能在10秒内生成细节丰富的4K高分辨率图像，能力全面超越端侧。

支撑端侧算力的三大传统理由——隐私性、低成本、低时延——在云端强势进化下逐一受到挑战。报告认为，“隐私性”和“低成本”需求正被证伪，真正站得住脚的或许只剩“低时延”一项。

但这里的关键低时延，并非指人类等待AI回复的速度。如今，像腾讯混元T1这样的模型，吐字速度已达每秒60-80个token，首字响应近乎瞬时，早已低于人类的舒适感知区间。

报告强调的低时延，特指设备对外部信号的内生处理速度。人脑完成从视觉感知到运动反应的周期约为180-200毫秒；而一个设备从接收信号、上传云端解析、再传回本地执行，往往需要2-5秒以上——若涉及图片等多模态信号，耗时更长。

这正是云端算力无法触及的物理盲区。报告做了一个生动类比：若将人体神经替换为无线信号，将大脑替换为云端算力，整个处理链路的稳定性和延迟将被无线通信距离显著拉长。

真实需求何在？在于能够行动的机器人

锁定“低时延”这一核心命题后，真正的需求方向变得清晰：让“类人终端”具备更接近人类的实时反应能力。

报告将当前类人终端按智能层级分为四类：

第一类：摄像头等感知硬件，需处理更多路信号、运行更精细的识别模型。

第二类：工具机器人（如割草机、泳池清洁机），需识别更复杂的场景。例如，割草机器人若能识别宠物粪便、石块、积雪、落叶，就能进化为全年可用的“庭院机器人”。

第三类：智能汽车，需理解各种异形障碍物和极端复杂的道路场景。

第四类：人形机器人，需实时理解物理世界并产生互动，其输入涵盖视觉、听觉、触觉，输出则是复杂的肢体动作。

报告的核心判断是：本轮端侧需求并非资本市场的单相思，而是“客户需求增长与行业能力进化形成的闭环结果”。割草机器人、送餐机器人、无人驾驶汽车的普及，让用户在接受基础功能后，自然提出了更高的智能化要求。

模型三级演进：从“识别物体”到“预判未来”

需求侧的演进，离不开模型能力的支撑。报告清晰地梳理了端侧视觉模型的进化路径。

第一代：YOLO模型

在大模型时代之前，机器视觉主要依赖基于CNN算法的YOLO模型。其原理是将图像划分为网格，让每个格子负责预测其中的物体。这好比经验丰富的保安快速扫视人群，只要某个格子内大概率出现“车”或“人”的特征，便立即画框标出。其优势是速度快，但硬伤明显：难以处理异形物体和3D画面，也无法理解物品间的逻辑关联。

第二代：Vision Transformer（ViT）

大模型思路引入视觉领域后，ViT打开了新的天花板。它将图像切分为小方块，像进行阅读理解一样，思考每个图像碎片与全图其他部分的关系。形象地说，当它识别到左上角的“猫耳朵”时，能通过逻辑关联预判右下角可能存在的“猫尾巴”，即使二者相距甚远。

ViT模型对算力需求更高，这恰恰打通了端侧算力升级的商业逻辑——更强的本地算力能直接转化为更强的终端能力，而非“空有算力却无法提升体验”。

第三代：VLM→VLA→世界模型

智能驾驶的发展加速了这一演进。

VLM（视觉-语言模型）：能看懂图像并翻译成语义信息，相当于“坐在副驾的解说员”，将路况转化为机器可理解的“情报”。

VLA（视觉-语言-动作模型）：在VLM基础上加入“动作”维度，直接从视觉感知输出控制指令，例如“方向盘左打10度”、“油门踩下20%”，实现从感知到执行的端到端控制。英伟达近期已发布开源VLA模型Alpamayo。

世界模型：更进一步，引入了预测机制。它在执行动作前，会预演未来几秒的多种可能场景，“通过生成未来的视频画面来评估风险，从而在无数‘平行宇宙’中选出最安全的路径”。

机器人前沿：GEM模型

相比智能驾驶，让机器人理解并与物理世界互动的难度又提升了一个量级。智能车的核心目标是“避免碰撞”，而机器人则必须实时与外界进行物理和语言的交互。

报告认为，GEM（Grounding Embedding Model）是解决这一难题的可能路径。简言之，它能将机器人的感知数据（如摄像头画面、激光雷达点云）和高层指令（如“把蓝色的杯子递给我”）映射到同一特征空间，让机器人即使从未见过某物体，也能通过语义理解完成任务。谷歌的RT-2模型已在探索这一方向，试图将图像、动作、语言全部转化为统一的“token”来实现对齐。

报告同时指出，GEM模型当前的主要痛点在于不同模态信号的对齐，以及灾难性遗忘、模态鸿沟等问题，“不仅需要模型工程的持续优化，在未来执行层面，也需要专门的算力芯片架构进行配合”。

芯片路线之争：NPU遭遇瓶颈，GPGPU向下渗透

模型需求明确后，芯片成为最终的落地环节。报告详细分析了NPU与GPGPU两条技术路线的优劣。

NPU：从YOLO起家，遭遇架构瓶颈

NPU的第一波放量源于YOLO模型——安防摄像头、初级自主移动机器人大量搭载了NPU芯片。瑞芯微的RK系列凭借性价比和低功耗成为主流选择，其营业收入从2016年的12.98亿元增长至2025年的44.02亿元。

但进入大模型时代，NPU遇到了架构层面的硬约束。在扫地机器人等低功耗场景下，若要运行以ViT为基座的模型替代YOLO，算力需求将接近100 TFLOPS。更关键的是，NPU缺少CUDA CORE，所有指令需由CPU下发，而在端侧功耗和成本限制下无法使用高性能CPU。这导致一个困境：“一旦在较弱的CPU下挂载过多NPU核，用于AI任务的指令就会占据CPU所有通信总线，从而导致设备宕机。”

当前有两条破局路径：

高通跃龙IQ10：换装更强的CPU和更大面积的NPU核，并融合部分GPU的任务调度结构。

瑞芯微RK182x：采用3D-DRAM+协处理器双轨并行，通过堆叠封装加大NPU与存储间的带宽，同时将AI推理任务从主芯片解放，缓解总线拥堵。

GPGPU：从云端继承，生态优势放大

相比NPU，GPGPU走向端侧的路径更为顺滑。云端GPGPU本就是全功能芯片，走向端侧只需按需缩减芯片面积和核心数量，不存在NPU面临的架构改造难题。

英伟达的智能驾驶业务收入从2024财年的5.36亿美元增长至2026财年的23.49亿美元，其Orin、Thor系列已推出覆盖不同价位和算力段的产品线。

但GPGPU的核心优势不止于硬件，更在于其强大的生态。报告指出，大部分端侧模型的预训练和微调都需借助CUDA生态完成，“若在端侧使用GPGPU架构，无论是部署速度还是最终效果，都会远超需要转译的NPU环境”。同时，英伟达在FP4等低精度推理方面已有成熟方案，可直接下放至端侧，而NPU在此领域的追赶则较为艰难。

报告的结论是：看好GPGPU架构在端侧的渗透率持续提升。但英伟达高昂的售价注定其不会成为市场唯一选择，这也为高通（凭借通信与计算融合的SOC方案）和国内芯片公司（以性价比切入下沉市场）留出了竞争空间。

投资布局：聚焦芯片、模组、存储三条主线

报告将端侧算力的投资机会分为三个主要环节：

芯片：这是价值量提升最大的环节。需关注NPU的迭代与GPGPU的向下渗透。报告特别指出，在端侧设备中，算力成本的占比将显著提升，“这一逻辑与云端基础设施建设类似”。

模组：报告称之为“旱涝保收的中间环节”。端侧算力客户极度分散，模组公司承担着连接上游芯片与下游万千用户的桥梁作用。无论哪种芯片路线最终胜出，模组厂商都能从中受益。在IoT时代已实现全球市场份额“东升西落”的中国模组公司，被认为不会缺席本轮增长。

存储：3D-DRAM是报告重点提及的新方向。端侧芯片的推理能力同样受内存大小和带宽制约，3D-DRAM通过将DRAM与NPU进行堆叠封装，能在低成本、低功耗的前提下有效提升带宽。