BitNet自定义1.58位内核在高通Hexagon的实践

2026-06-13阅读 0热度 0

人工智能

部署BitNet模型到移动端NPU，技术上极具挑战性，但对边缘AI落地意义重大。ENERZAi团队已在高通QCS6490 Hexagon NPU上，借助QNN成功运行了BitNet b1.58的2B模型，实现了这一突破。

上述缩写密集如无头绪，请不必焦虑。阅读完本文后，你将明确这一成果的实际价值、实现过程中的技术难点，以及它如何成为边缘设备AI能力跃升的关键节点。

BitNet究竟是何架构？

先从基础概念说起。在深入硬件实现之前，统一对BitNet的认知至关重要。

BitNet由微软研究院提出，是一种底层重新定义模型权重表达的大语言模型架构。具体而言，BitNet b1.58将每个权重约束为三个可能值：–1、0或+1，即三值权重。“1.58”这一命名来源于信息论公式：log₂(3) ≈ 1.58——这恰好是理论表示三种状态所需的最小比特数。

该架构优势显著：内存占用极低，天然适配边缘设备部署场景。

BitNet b1.58本质上以三值形式表达模型，内存使用极其紧凑，理论上堪称边缘端理想选择。

然而现实挑战在于：包括高通QNN在内的大多数NPU SDK，原生仅支持标准量化格式（如INT8、INT4）。三值运算？不在其标准能力之列。也就是说，开箱即用时NPU上根本没有现成路径可用。

关键前提必须明确：无法直接运行，意味着必须另寻他法。

ENERZAi的突破性方案是针对高通Hexagon架构开发自定义1.58位内核。这一技术描述看似简单，背后工作量极大——团队需要绕过QNN的限制，自主补足三值运算能力。

最终成果是：在高通QCS6490 Hexagon NPU上，团队以可控的内存占用和合理吞吐量，成功运行了BitNet b1.58的2B模型。

这一成果的意义在于，它为更大规模模型部署提供了早期但关键的概念验证。我们认为，真正的边缘智能——设备本身具备充足推理能力，而非仅做简单分类——至少需要8B参数级别以上的模型。现在，我们已证明这一方向切实可行。

这项成果不仅是一次技术可行性测试，更为边缘设备承载更大规模LLM奠定了基石。随着AI推理持续从云端向终端迁移，对低比特、高效率架构的探索将愈发关键。ENERZAi将持续深耕这一路径，将边缘AI的边界不断前推。

A：数字“1.58”源自信息论中的log₂(3) ≈ 1.58，代表理论上表示三种状态（–1、0、+1）所需的最少比特数。BitNet b1.58将每个权重限定在这三个三元值内，从而极大压缩模型体积，使其特别适合内存受限的边缘设备运行。

A：目前主流NPU SDK（包括高通QNN）原生支持的标准量化格式仅有INT8、INT4等。三值权重这种形式不在其标准功能清单内。因此，开箱即用时NPU上不存在现成路径运行三值运算——必须通过自定义内核解决。

A：团队专门为高通Hexagon架构开发了自定义的1.58位内核，绕过了QNN原生不支持三值运算的限制。通过此方案，最终在高通QCS6490 Hexagon NPU上，以合理的内存占用和吞吐量成功运行了BitNet b1.58 2B模型，完成了这一概念验证。