瞬悉2.0权威评测：中科院类脑大模型如何突破长序列与低耗部署瓶颈？

2026-05-17阅读 0热度 0

中国科学院

大模型的长文本能力竞赛已进入白热化阶段。无论是深度解析代码仓库、维持智能体的长期记忆，还是处理复杂的多模态交互，都要求模型能够高效处理数十万乃至上百万token的超长序列。

然而，一个根本性的技术瓶颈也随之凸显：基于传统Transformer架构的模型，其推理时的计算复杂度和显存占用会随序列长度呈平方级增长。这严重制约了模型在真实世界，特别是资源受限环境中的实际部署与应用。

如何从根本上突破这一效率与能耗的壁垒？中国科学院自动化研究所李国齐、徐波团队的最新研究成果——类脑脉冲大模型「瞬悉2.0」（SpikingBrain2.0-5B），给出了一个极具前景的答案。该研究在「瞬悉1.0」的基础上，针对长序列处理与低功耗部署两大核心挑战，实现了从底层架构到上层应用的系统性升级。

研究背景：从规模优先到效率优先的范式转移

当前，大模型的发展重心正经历一次关键转向。早期依赖参数和数据规模扩张的路径，正逐步让位于对模型上下文理解与记忆能力的深度挖掘。模型能有效处理的信息长度，直接决定了其解决复杂、长程依赖任务的能力上限。

但现实挑战严峻。传统Transformer的自注意力机制在处理超长序列时，其计算开销成为难以承受之重。因此，整个领域都在探索一个核心命题：能否以极低的计算与能耗成本，构建一个既能驾驭超长上下文，又能在多样硬件平台上高效运行的基础模型？

「瞬悉1.0」首次将类脑脉冲神经网络机制引入大模型，迈出了探索的第一步。而「瞬悉2.0」则通过引入更精细的类脑稀疏记忆建模与双路径激活编码策略，旨在实现一次全面的性能与效率突破。

架构设计：精准狙击Transformer的效率瓶颈

要优化效率，必须精确识别瓶颈所在。对于短序列，Transformer的计算负担主要来自密集的前馈网络；而对于长序列，注意力模块则成为主要的性能与能耗瓶颈。「瞬悉2.0」的架构革新，正是对这两大痛点的针对性设计。

瞬悉2.0架构概览

双空间混合稀疏注意力

模型创新性地提出了“双空间稀疏注意力”（DSSA）机制。其核心在于，并非在所有网络层使用统一的注意力模式，而是根据不同层的功能特性，混合采用了两种稀疏注意力策略：一种是基于完整键值缓存的块级稀疏计算（MoBA），另一种则是对压缩后状态表征进行稀疏计算（SSE）。

这一设计灵感源于生物大脑的稀疏记忆与处理机制，其目标是在确保长序列建模性能的前提下，最大化计算效率，达成卓越的“性能-能效”平衡。

双路径激活值编码策略

注意力机制决定了计算方式，而激活值编码则决定了计算的“数据格式”。「瞬悉2.0」设计了两套并行的编码路径，以适配不同的硬件生态：

瞬悉2.0对偶编码路径

FP8编码路径：面向主流高性能GPU（如NVIDIA H100）。利用低精度张量核心加速矩阵运算，是追求极致推理吞吐量的选择。
INT8-Spiking脉冲编码路径：面向未来的神经形态计算芯片。将激活值转换为稀疏的脉冲事件流，从而将密集的矩阵乘法转化为事件驱动的整数累加操作。这条路径旨在实现极致的能效比，为边缘计算和嵌入式部署扫清障碍。

转换训练：以低成本实现高性能模型迁移

从头训练一个全新架构的大模型成本极高。「瞬悉2.0」采用了一套高效的“Transformer-to-Hybrid”转换训练流程，仅需极少的开源数据和计算资源，即可将成熟的Transformer模型（如Qwen3系列）高性能地迁移至类脑脉冲架构。

瞬悉2.0转换训练Pipeline

该流程为语言模型和多模态模型设计了独立的优化路径。对于语言模型，通过短上下文知识蒸馏、渐进式长上下文扩展以及指令微调等阶段，稳步提升模型能力。对于视觉语言模型，则结合了跨模态知识蒸馏与指令调优技术。整个过程高效且具备高度可复现性，为社区提供了宝贵的工程实践参考。

性能表现：用基准测试数据验证

经过精心设计的「瞬悉2.0」，其实际效能究竟如何？

1. 长序列处理效率实现数量级提升

在长文本处理能力上，其优势是决定性的。在处理长达400万token的序列时，其首Token生成延迟相比强基线模型Qwen3加速超过10倍。更具突破性的是，借助vLLM推理框架，仅需8张A100显卡即可支持长达1000万token序列的推理，而基线模型在400万token时即因显存耗尽而无法运行。

2. 训练成本得到大幅压缩

效率优势不仅体现在推理阶段，也贯穿于训练过程。整个「瞬悉2.0」语言与多模态模型的转换训练，总计算开销被严格控制在7000 A100显卡小时以内。具体而言，仅使用32张A100显卡，在9天内即可完成对Qwen3-4B及Qwen3-VL-4B模型的完整架构转换。相比前代「瞬悉1.0」，训练所需的数据量从1500亿Token大幅减少至140亿，成本降低了一个数量级。

3. 模型核心能力得到完整保留

在实现如此高能效的同时，模型的基础能力是否受损？基准测试给出了否定的答案。在MMLU、ARC-C等通用知识评测，以及GSM8K数学推理、HumanEval代码生成等专项任务上，「瞬悉2.0」的语言模型性能与基线Qwen3保持持平，并全面超越了前代模型。其多模态版本「瞬悉2.0-VL」也成功复现了Qwen3-VL的能力，在图表理解等视觉语言任务上表现稳健。

4. 跨平台适配能力展现卓越潜力

这正是「瞬悉2.0」最具颠覆性的特性之一，它真正实现了对异构计算平台的高效适配。

在FP8路径下，模型精度损失微乎其微（仅0.24%），但在H100 GPU上的实测数据显示，长序列推理速度相比其自身的BF16版本提升超过2.5倍。
在INT8-Spiking脉冲路径下，精度损失被控制在0.69%以内，同时激活稀疏度高达64.3%。后端仿真结果表明：与传统的INT8矩阵乘法方案相比，该路径有望在专用神经形态芯片上实现芯片面积减少70.6%，功耗降低约46%-48%。这为彻底解决大模型在端侧设备部署的功耗难题，指明了一条极具可行性的技术路径。

结语

「瞬悉2.0」的推出，不仅标志着一个模型版本的迭代。它更清晰地验证了一条技术路径：通过深度借鉴生物大脑的稀疏性与事件驱动特性，我们能够构建出在保持强大性能的同时，兼具超长上下文处理能力与极致能效的新一代基础模型架构。

这项研究为轻量化、多模态高效模型的研发提供了坚实的可行性证明，也为人工智能在边缘计算、物联网等严苛资源环境下的规模化落地，开启了新的可能性。这或许预示着，大模型的发展范式正在从单纯追求“参数规模”，转向更加注重“架构巧思”与“绿色计算”的新纪元。