存算一体技术入选十五五规划:通用化与软件生态难题深度解析
AI算力需求的指数级增长,正将传统计算架构推向极限。
国家数据局最新数据显示,截至2026年3月,我国日均AI token调用量已突破140万亿。这一数字在三个月内较2025年底的100万亿激增超40%;若对比2024年初的1000亿基准,两年累计增幅更是超过1000倍。
AI智能体、多模态交互及长文本推理等复杂场景的规模化落地,是数据洪流的直接推手。市场对高并发、低功耗、大吞吐推理算力的刚性需求日益凸显。传统算力卡受制于存储墙与带宽瓶颈,在应对token处理的指数级需求时已显疲态,算力供需错配持续加剧。在此背景下,存算一体架构被视为破局的关键技术路径。
近年来,“存算一体”在多项产业政策中频繁出现。进入“十五五”规划期,其战略地位被提升至新高度——在纲要中,存算一体与三维堆叠、光电融合并列,被明确为下一代集成电路的前沿架构方向。
与此同时,中国存算一体产业正经历从概念验证到工程落地的关键转折。一方面,围绕新架构的初创企业不断涌现;另一方面,部分领先团队已跨越原型阶段,进入产品化进程。
亿铸科技自2024年运营以来,是国内该赛道的早期布局者之一。近期,我们与亿铸科技创始人、董事长兼CEO熊大鹏博士进行深度对话,聚焦存算一体的技术演进、落地挑战与产业机遇,为这一前沿方向提供了具体的进展观察。
一、从“冯・诺依曼架构”说起:存算一体的技术本质与现实挑战
理解存算一体的价值,需先审视传统架构在AI时代的根本瓶颈。
冯·诺依曼架构作为现代计算机的基石,其“存储程序”的核心设计将计算单元与存储单元分离。计算单元需不断从存储中提取指令与数据执行。
AI时代的挑战在于:模型参数规模呈指数膨胀,数据访存需求急剧攀升。算力增长遭遇“存储墙”与“能耗墙”的双重制约。
具体而言,数据在存储与计算单元间频繁搬运,其产生的带宽延迟与功耗开销,已成为算力释放的主要障碍。数据搬运的能耗远超计算本身。根据计算机体系结构先驱约翰·轩尼诗(John L. Hennessy)的研究,AI计算中数据搬运成本可达计算成本的100倍。
存算一体(Computing in Memory)正是针对此痛点的架构革新。其本质是将计算功能嵌入存储阵列或其近端,极大压缩数据搬运距离与次数,旨在实现计算与存储的高效协同,达成更低延时与更高能效。
以亿铸的存算一体产品为例,其依托架构原生的计算能力,优化了带宽利用与并发处理,有效满足单卡大吞吐、高并发的实际需求。在长上下文、高并发推理场景中,其能效与吞吐指标均实现显著突破。
尽管架构优势明确,但存算一体AI大芯片的落地仍面临多重现实挑战。
首先是算法快速迭代。AI主流范式平均每2到3年便发生更迭,这对底层硬件的通用性与适应性提出极高要求。
其次是软件生态壁垒。当前AI开发高度依赖以CUDA为代表的成熟软件体系。新一代存算一体芯片必须做好通用设计并兼容主流生态,这意味着从指令集、架构、核心IP到编译器、算子优化工具的全技术栈均需具备相应能力。新架构若无法融入主流工具链,将直接面临开发者接纳度低的困境。
再次是工程实现难度。不同存储介质在密度、功耗、读写性能等方面存在复杂的工程权衡,最终选择取决于具体AI应用场景的需求。
最后是异构融合难题。存算一体本质上是为矩阵计算优化的专用计算单元。它需与CPU等其他计算单元构成完整系统,并需优化异构融合中的任务分工与切换效率,方能实现整体性能最优。
熊大鹏博士强调,存算一体AI芯片并非简单耦合存储与逻辑计算,而是从ISA指令集、架构、微架构、核心IP到软件栈的全链条体系化创新。实现不同计算精度、高效协同其他计算单元、快速融入既有软件生态、完成传统AI芯片的计算任务,并达成全栈技术自主可控,这些挑战远比“实现矩阵计算”本身更为复杂。
二、通用化探索:从架构创新到生态兼容
当前,存算一体主要分为模拟与数字两大技术路径。
模拟存算一体利用存储介质的物理特性在模拟域完成乘加运算,但在器件一致性、计算精度、数据动态范围及浮点计算等方面存在局限。数字存算一体则围绕存储单元集成数字逻辑电路实现运算,能保持高精度、高可靠性、高能效比与大算力优势,更易与通用计算融合,可支撑高精度通用计算与大模型推理,是当前主流方向之一。
从存储介质看,SRAM、NOR Flash、RRAM、3D DRAM、PCRAM等各具特点。熊大鹏博士总结了包括密度、读写速度、功耗、成本、良率、工艺兼容性等在内的14个关键差异维度。
面对庞杂的技术选项,亿铸选择了“通用存算一体”的探索方向。熊大鹏博士阐释了其三个维度:
第一是存储层面的通用性,即能否兼容不同存储介质;
第二是算力层面的通用性,即能否支持各类算法模型;
第三是软件生态的通用性,即能否兼容主流生态并被开发者便捷使用。
这三个维度精准回应了存算一体在存储介质选择、算法迭代和软件生态方面的核心难题。
需明确,存算一体架构当前的核心价值体现在两个维度:贡献更低功耗,或贡献更大容量与吞吐。两者很难在同一介质上同时最优。因此,不同场景的需求与优先级取舍,决定了存储介质与芯片设计的最终选择。
亿铸在实践中已尝试将两种新型存储介质应用于存算一体方案。这种架构的优势在于,企业可根据目标市场对容量、功耗、成本、性能的不同要求,灵活选择最合适的存储介质。在新型存储介质并行发展、行业标准尚未统一的阶段,这成为一种面向未来的“架构保险”。
在软件层面,兼容现有生态是关键策略。熊大鹏博士透露,其团队通过指令集层面兼容Triton和CUDA等主流生态。但他强调,兼容仅是基础:“能运行不代表运行高效,算子效率仍需持续优化。”通过编译器和自动优化工具实现算子的自动生成与优化,从而大幅减少软件工作量、加速应用部署,这才是通用存算一体架构的核心优势之一。
“软件生态不是口号,是工程师用脚投票的结果。”熊大鹏博士认为,“只有被广泛使用的软件生态,才真正具备商业价值。”
三、存算一体重心调整,政策信号趋于明朗
回顾亿铸的发展路径,其通用存算一体的技术方向是在市场验证与技术迭代中逐步成型的。
熊大鹏博士回忆,其在2017年至2019年间曾专注于某创新架构研发,但在落地时遭遇了软件生态与通用性的巨大挑战。“我们当时的创业认知是,硬件性能领先即可胜出。但后来发现,软件生态的兼容性与通用性同样关键。”这一经验促使亿铸在坚持硬件架构创新的同时,必须兼顾生态兼容与通用性。
在存储架构的通用性方面,亿铸也经历了认知演变。2023年前,市场对服务器级AI算力卡的主流需求,是基于75W功耗实现优于T4的推理性能。然而,自2024年起,行业重心明显向大模型与高存储容量倾斜。熊大鹏博士观察到:“大模型流行后,核心问题转变为大容量、大带宽和高token吞吐率,同时需将功耗控制在合理范围。”
大容量、大带宽、低成本的3D DRAM,在此阶段展现出独特价值。事实上,亿铸早在2024年便关注到3D DRAM的潜力,并进行了持续的技术储备。这些前置工作,使其能在算法迭代中快速调整方案,满足大模型时代对“大容量、大吞吐、低功耗、高性价比”AI大算力芯片的需求。
在中国半导体产业寻求自主突破与差异化路径的背景下,这种务实的演进路径尤为关键。全球算力竞争高度依赖先进制程与高带宽存储(HBM)。在外部环境不确定性加大的背景下,探索新架构路径被视为提升国内产业自主能力的重要方向。
熊大鹏博士指出,存算一体的核心价值在于架构层面突破:“它能够以成熟工艺达到甚至超越先进工艺的性能,缓解对先进工艺和HBM的依赖,为算力供给提供新解法。”
从这个视角看,十五五规划对存算一体的高度关注顺理成章。熊大鹏博士表示,被列入国家规划,意味着技术原理与产业价值已通过国家层面的论证,政策信号已非常明确。
结语:存算一体,走向产业化的关键阶段
从政策支持到企业探索,存算一体正逐步走出实验室,迈向产业化深水区。通用计算能力、软件生态兼容及可行的工程路径,将成为决定其成败的关键。
对于AI产业的发展阶段,熊大鹏博士给出一个类比:当前的AI如同3G时代的移动互联网,雏形已现、前景可期,但仍存在成本高、效率待提升等问题,尚未成为工作生活中不可或缺的部分。真正的产业爆发,仍需持续提升性能、降低成本。
他将理想的AI算力定义为“3+1”特征:更低功耗、更高吞吐、更低成本,以及良好的软件生态。目前,国际主流厂商至多实现“1+1”,例如软件生态优异,但难以在功耗、吞吐、成本三者间取得完美平衡。亿铸团队正致力于通过“通用存算一体”技术,实现真正的“3+1”闭环。
熊大鹏博士也指出,随着智能化深入,算法演进带来了更加多元的算力需求。存算一体并非万能解药,它有明确的适用边界,且与存储介质的物理特性及工艺现状紧密相关。但它必将与CPU、GPU、TPU、NPU等现有架构一样,在与其特性高度匹配的场景中,发挥不可替代的关键作用。

