存算一体技术入选十五五规划：通用化与软件生态难题深度解析

2026-05-17阅读 0热度 0

通用性

AI算力需求的指数级增长，正将传统计算架构推向极限。

国家数据局最新数据显示，截至2026年3月，我国日均AI token调用量已突破140万亿。这一数字在三个月内较2025年底的100万亿激增超40%；若对比2024年初的1000亿基准，两年累计增幅更是超过1000倍。

AI智能体、多模态交互及长文本推理等复杂场景的规模化落地，是数据洪流的直接推手。市场对高并发、低功耗、大吞吐推理算力的刚性需求日益凸显。传统算力卡受制于存储墙与带宽瓶颈，在应对token处理的指数级需求时已显疲态，算力供需错配持续加剧。在此背景下，存算一体架构被视为破局的关键技术路径。

近年来，“存算一体”在多项产业政策中频繁出现。进入“十五五”规划期，其战略地位被提升至新高度——在纲要中，存算一体与三维堆叠、光电融合并列，被明确为下一代集成电路的前沿架构方向。

与此同时，中国存算一体产业正经历从概念验证到工程落地的关键转折。一方面，围绕新架构的初创企业不断涌现；另一方面，部分领先团队已跨越原型阶段，进入产品化进程。

亿铸科技自2024年运营以来，是国内该赛道的早期布局者之一。近期，我们与亿铸科技创始人、董事长兼CEO熊大鹏博士进行深度对话，聚焦存算一体的技术演进、落地挑战与产业机遇，为这一前沿方向提供了具体的进展观察。

一、从“冯・诺依曼架构”说起：存算一体的技术本质与现实挑战

理解存算一体的价值，需先审视传统架构在AI时代的根本瓶颈。

冯·诺依曼架构作为现代计算机的基石，其“存储程序”的核心设计将计算单元与存储单元分离。计算单元需不断从存储中提取指令与数据执行。

AI时代的挑战在于：模型参数规模呈指数膨胀，数据访存需求急剧攀升。算力增长遭遇“存储墙”与“能耗墙”的双重制约。

具体而言，数据在存储与计算单元间频繁搬运，其产生的带宽延迟与功耗开销，已成为算力释放的主要障碍。数据搬运的能耗远超计算本身。根据计算机体系结构先驱约翰·轩尼诗（John L. Hennessy）的研究，AI计算中数据搬运成本可达计算成本的100倍。

存算一体（Computing in Memory）正是针对此痛点的架构革新。其本质是将计算功能嵌入存储阵列或其近端，极大压缩数据搬运距离与次数，旨在实现计算与存储的高效协同，达成更低延时与更高能效。

以亿铸的存算一体产品为例，其依托架构原生的计算能力，优化了带宽利用与并发处理，有效满足单卡大吞吐、高并发的实际需求。在长上下文、高并发推理场景中，其能效与吞吐指标均实现显著突破。

尽管架构优势明确，但存算一体AI大芯片的落地仍面临多重现实挑战。

首先是算法快速迭代。AI主流范式平均每2到3年便发生更迭，这对底层硬件的通用性与适应性提出极高要求。

其次是软件生态壁垒。当前AI开发高度依赖以CUDA为代表的成熟软件体系。新一代存算一体芯片必须做好通用设计并兼容主流生态，这意味着从指令集、架构、核心IP到编译器、算子优化工具的全技术栈均需具备相应能力。新架构若无法融入主流工具链，将直接面临开发者接纳度低的困境。

再次是工程实现难度。不同存储介质在密度、功耗、读写性能等方面存在复杂的工程权衡，最终选择取决于具体AI应用场景的需求。

最后是异构融合难题。存算一体本质上是为矩阵计算优化的专用计算单元。它需与CPU等其他计算单元构成完整系统，并需优化异构融合中的任务分工与切换效率，方能实现整体性能最优。

熊大鹏博士强调，存算一体AI芯片并非简单耦合存储与逻辑计算，而是从ISA指令集、架构、微架构、核心IP到软件栈的全链条体系化创新。实现不同计算精度、高效协同其他计算单元、快速融入既有软件生态、完成传统AI芯片的计算任务，并达成全栈技术自主可控，这些挑战远比“实现矩阵计算”本身更为复杂。

二、通用化探索：从架构创新到生态兼容

当前，存算一体主要分为模拟与数字两大技术路径。

模拟存算一体利用存储介质的物理特性在模拟域完成乘加运算，但在器件一致性、计算精度、数据动态范围及浮点计算等方面存在局限。数字存算一体则围绕存储单元集成数字逻辑电路实现运算，能保持高精度、高可靠性、高能效比与大算力优势，更易与通用计算融合，可支撑高精度通用计算与大模型推理，是当前主流方向之一。

从存储介质看，SRAM、NOR Flash、RRAM、3D DRAM、PCRAM等各具特点。熊大鹏博士总结了包括密度、读写速度、功耗、成本、良率、工艺兼容性等在内的14个关键差异维度。

面对庞杂的技术选项，亿铸选择了“通用存算一体”的探索方向。熊大鹏博士阐释了其三个维度：

第一是存储层面的通用性，即能否兼容不同存储介质；
第二是算力层面的通用性，即能否支持各类算法模型；
第三是软件生态的通用性，即能否兼容主流生态并被开发者便捷使用。

这三个维度精准回应了存算一体在存储介质选择、算法迭代和软件生态方面的核心难题。

需明确，存算一体架构当前的核心价值体现在两个维度：贡献更低功耗，或贡献更大容量与吞吐。两者很难在同一介质上同时最优。因此，不同场景的需求与优先级取舍，决定了存储介质与芯片设计的最终选择。

亿铸在实践中已尝试将两种新型存储介质应用于存算一体方案。这种架构的优势在于，企业可根据目标市场对容量、功耗、成本、性能的不同要求，灵活选择最合适的存储介质。在新型存储介质并行发展、行业标准尚未统一的阶段，这成为一种面向未来的“架构保险”。

在软件层面，兼容现有生态是关键策略。熊大鹏博士透露，其团队通过指令集层面兼容Triton和CUDA等主流生态。但他强调，兼容仅是基础：“能运行不代表运行高效，算子效率仍需持续优化。”通过编译器和自动优化工具实现算子的自动生成与优化，从而大幅减少软件工作量、加速应用部署，这才是通用存算一体架构的核心优势之一。

“软件生态不是口号，是工程师用脚投票的结果。”熊大鹏博士认为，“只有被广泛使用的软件生态，才真正具备商业价值。”

三、存算一体重心调整，政策信号趋于明朗

回顾亿铸的发展路径，其通用存算一体的技术方向是在市场验证与技术迭代中逐步成型的。

熊大鹏博士回忆，其在2017年至2019年间曾专注于某创新架构研发，但在落地时遭遇了软件生态与通用性的巨大挑战。“我们当时的创业认知是，硬件性能领先即可胜出。但后来发现，软件生态的兼容性与通用性同样关键。”这一经验促使亿铸在坚持硬件架构创新的同时，必须兼顾生态兼容与通用性。

在存储架构的通用性方面，亿铸也经历了认知演变。2023年前，市场对服务器级AI算力卡的主流需求，是基于75W功耗实现优于T4的推理性能。然而，自2024年起，行业重心明显向大模型与高存储容量倾斜。熊大鹏博士观察到：“大模型流行后，核心问题转变为大容量、大带宽和高token吞吐率，同时需将功耗控制在合理范围。”

大容量、大带宽、低成本的3D DRAM，在此阶段展现出独特价值。事实上，亿铸早在2024年便关注到3D DRAM的潜力，并进行了持续的技术储备。这些前置工作，使其能在算法迭代中快速调整方案，满足大模型时代对“大容量、大吞吐、低功耗、高性价比”AI大算力芯片的需求。

在中国半导体产业寻求自主突破与差异化路径的背景下，这种务实的演进路径尤为关键。全球算力竞争高度依赖先进制程与高带宽存储（HBM）。在外部环境不确定性加大的背景下，探索新架构路径被视为提升国内产业自主能力的重要方向。

熊大鹏博士指出，存算一体的核心价值在于架构层面突破：“它能够以成熟工艺达到甚至超越先进工艺的性能，缓解对先进工艺和HBM的依赖，为算力供给提供新解法。”

从这个视角看，十五五规划对存算一体的高度关注顺理成章。熊大鹏博士表示，被列入国家规划，意味着技术原理与产业价值已通过国家层面的论证，政策信号已非常明确。

结语：存算一体，走向产业化的关键阶段

从政策支持到企业探索，存算一体正逐步走出实验室，迈向产业化深水区。通用计算能力、软件生态兼容及可行的工程路径，将成为决定其成败的关键。

对于AI产业的发展阶段，熊大鹏博士给出一个类比：当前的AI如同3G时代的移动互联网，雏形已现、前景可期，但仍存在成本高、效率待提升等问题，尚未成为工作生活中不可或缺的部分。真正的产业爆发，仍需持续提升性能、降低成本。

他将理想的AI算力定义为“3+1”特征：更低功耗、更高吞吐、更低成本，以及良好的软件生态。目前，国际主流厂商至多实现“1+1”，例如软件生态优异，但难以在功耗、吞吐、成本三者间取得完美平衡。亿铸团队正致力于通过“通用存算一体”技术，实现真正的“3+1”闭环。

熊大鹏博士也指出，随着智能化深入，算法演进带来了更加多元的算力需求。存算一体并非万能解药，它有明确的适用边界，且与存储介质的物理特性及工艺现状紧密相关。但它必将与CPU、GPU、TPU、NPU等现有架构一样，在与其特性高度匹配的场景中，发挥不可替代的关键作用。

存算一体技术入选十五五规划：通用化与软件生态难题深度解析

一、从“冯・诺依曼架构”说起：存算一体的技术本质与现实挑战

二、通用化探索：从架构创新到生态兼容

三、存算一体重心调整，政策信号趋于明朗

结语：存算一体，走向产业化的关键阶段

相关阅读

最新教程

最新资讯