最新Prometheus服务器深度评测：突破AI大语言模型内存瓶颈

2026-06-02阅读 0热度 0

语言模型

先点明几个关键结论：大语言模型生成Token本质上受制于“内存带宽”——模型输出文本的速度，直接取决于从内存读取数据有多快。模型参数持续膨胀后，这一瓶颈愈发尖锐，业界称之为“内存墙”。

AI硬件初创公司Majestic Labs正用一种极其直接的方式试图击穿这堵墙。他们正在开发一台名为Prometheus的全新AI服务器，最高可搭载128TB内存——对比之下，这个容量是英伟达DGX B300服务器的60多倍，而后者已经是当前顶尖的AI计算节点了。

Majestic Labs联合创始人兼总裁Sha Rabii的思路很清晰：用极致的内存容量构筑竞争壁垒。他承认英伟达在构建可扩展系统方面做得相当出色，但话锋一转指出，随着模型规模增长，英伟达方案的经济账越来越难看，“最终结果是计算资源过剩，内存资源却严重不足”。

架构层面的差异化路线

Majestic Labs打算走一条与现有方案本质不同的技术路径来突破“内存墙”。

英伟达目前的服务器使用高带宽内存（HBM）读取模型权重，再配一块容量更大但速度稍慢的DRAM处理模型运行及服务器开销。Majestic的做法是采用统一架构，全盘押注DRAM（具体为LPDDR6）。

Rabii透露，大多数内存接口设计出来只能工作在极短距离——有时仅几毫米，这严重限制了内存容量的扩展。“计算芯片上的‘岸线’就那么长，能放置HBM的位置有限，想多加根本塞不进去。”他解释道。

他们的解决方案是使用一种由微型铜缆构成的专有内存接口，有效传输距离可达一米。同时，自研的内存聚合芯片紧贴内存模块放置，负责协调整台服务器的内存运作。

“这个接口就像高速传输的端点，向外扩展连接大量通用DRAM芯片。”Rabii说。据官方数据，这套设计不仅能支持超大容量的内存寻址，还能提供高达25.6TB/s的内存带宽。

Ignite：定制AI处理单元

光有大内存还不够，还需要强大的AI加速能力，这就像英伟达GPU扮演的角色。Majestic的答案是Ignite——一颗自研的定制AI处理单元，作为服务器的计算核心。一台Prometheus服务器内嵌12颗Ignite芯片。

Ignite在一颗芯片上集成了数据中心级的ARM应用核心和RISC-V向量及张量核心，它们共享同一块内存空间。ARM核心充当片上的主处理器，负责编排AI模型的工作流；RISC-V核心则负责实际的大语言模型计算任务。这种设计的优势是，单颗芯片就能处理大语言模型推理过程中的多个环节，无需在不同处理器之间来回交接任务。至于具体的计算性能指标，Majestic Labs目前尚未公布。

软件生态与兼容性

Rabii对软件层面也非常重视，毕竟现有AI框架已经深度嵌入当前工作流。他的态度很明确：“客户采用过程中每一个摩擦点，无论是硬件还是软件，我们都要尽力消除。”Prometheus支持PyTorch、vLLM和OpenAI的Triton推理框架，且无需修改任何代码。换句话说，只要模型基于这些框架开发，拿来就能直接运行。

服务器规格与价格展望

聊聊整机规格。Prometheus遵循开放计算项目标准，单个机架最多可容纳四台服务器，预计每机架总功耗约120千瓦，采用冷板液冷散热。服务器的内存采用模块化设计，意味着初始配置未达到128TB上限的机器，日后可根据需求升级扩容。

定价方面，尽管内存容量相当惊人，Majestic仍希望给出一个具有竞争力的价格。他们的底气在于用DRAM取代了HBM，成本更具优势。具体价格尚未公布，服务器预计2027年正式发货。

Rabii最后放了一句狠话：“根据不同的工作负载，客户的资本支出将下降10到50倍，能耗也能同步降低同样的幅度。”

Q&A

Q1：Prometheus服务器为什么能配置这么大的内存？

A：它采用了专有的微型铜缆内存接口，有效传输距离可达一米，突破了传统内存接口只能工作在几毫米内的物理限制。同时配合自研内存聚合芯片，统一调度服务器内所有DRAM资源，从而实现最高128TB的超大内存配置，远超采用HBM方案的传统服务器。

Q2：Ignite芯片和英伟达GPU有什么区别？

A：Ignite将数据中心级ARM应用核心与RISC-V向量及张量核心集成在单颗芯片上，并共享统一内存空间。ARM核心负责模型调度，RISC-V核心负责实际的大语言模型推理计算，无需跨处理器传递数据。而英伟达GPU主要依赖HBM与独立主机CPU协同工作，架构逻辑有所不同。

Q3：Prometheus服务器支持哪些主流AI框架？

A：Prometheus支持PyTorch、vLLM以及OpenAI的Triton推理框架，且无需对现有代码进行任何修改。这意味着已基于上述框架开发的大语言模型可以直接在Prometheus上运行，大幅降低了用户的迁移成本和技术门槛。

最新Prometheus服务器深度评测：突破AI大语言模型内存瓶颈

架构层面的差异化路线

Ignite：定制AI处理单元

软件生态与兼容性

服务器规格与价格展望

Q&A

相关阅读

最新教程

最新资讯