最新Prometheus服务器深度评测:突破AI大语言模型内存瓶颈

2026-06-02阅读 0热度 0
语言模型

先点明几个关键结论:大语言模型生成Token本质上受制于“内存带宽”——模型输出文本的速度,直接取决于从内存读取数据有多快。模型参数持续膨胀后,这一瓶颈愈发尖锐,业界称之为“内存墙”。

Majestic Labs推出Prometheus服务器,突破AI大语言模型

AI硬件初创公司Majestic Labs正用一种极其直接的方式试图击穿这堵墙。他们正在开发一台名为Prometheus的全新AI服务器,最高可搭载128TB内存——对比之下,这个容量是英伟达DGX B300服务器的60多倍,而后者已经是当前顶尖的AI计算节点了。

Majestic Labs联合创始人兼总裁Sha Rabii的思路很清晰:用极致的内存容量构筑竞争壁垒。他承认英伟达在构建可扩展系统方面做得相当出色,但话锋一转指出,随着模型规模增长,英伟达方案的经济账越来越难看,“最终结果是计算资源过剩,内存资源却严重不足”。

架构层面的差异化路线

Majestic Labs打算走一条与现有方案本质不同的技术路径来突破“内存墙”。

英伟达目前的服务器使用高带宽内存(HBM)读取模型权重,再配一块容量更大但速度稍慢的DRAM处理模型运行及服务器开销。Majestic的做法是采用统一架构,全盘押注DRAM(具体为LPDDR6)。

Rabii透露,大多数内存接口设计出来只能工作在极短距离——有时仅几毫米,这严重限制了内存容量的扩展。“计算芯片上的‘岸线’就那么长,能放置HBM的位置有限,想多加根本塞不进去。”他解释道。

他们的解决方案是使用一种由微型铜缆构成的专有内存接口,有效传输距离可达一米。同时,自研的内存聚合芯片紧贴内存模块放置,负责协调整台服务器的内存运作。

“这个接口就像高速传输的端点,向外扩展连接大量通用DRAM芯片。”Rabii说。据官方数据,这套设计不仅能支持超大容量的内存寻址,还能提供高达25.6TB/s的内存带宽。

Ignite:定制AI处理单元

光有大内存还不够,还需要强大的AI加速能力,这就像英伟达GPU扮演的角色。Majestic的答案是Ignite——一颗自研的定制AI处理单元,作为服务器的计算核心。一台Prometheus服务器内嵌12颗Ignite芯片。

Ignite在一颗芯片上集成了数据中心级的ARM应用核心和RISC-V向量及张量核心,它们共享同一块内存空间。ARM核心充当片上的主处理器,负责编排AI模型的工作流;RISC-V核心则负责实际的大语言模型计算任务。这种设计的优势是,单颗芯片就能处理大语言模型推理过程中的多个环节,无需在不同处理器之间来回交接任务。至于具体的计算性能指标,Majestic Labs目前尚未公布。

软件生态与兼容性

Rabii对软件层面也非常重视,毕竟现有AI框架已经深度嵌入当前工作流。他的态度很明确:“客户采用过程中每一个摩擦点,无论是硬件还是软件,我们都要尽力消除。”Prometheus支持PyTorch、vLLM和OpenAI的Triton推理框架,且无需修改任何代码。换句话说,只要模型基于这些框架开发,拿来就能直接运行。

服务器规格与价格展望

聊聊整机规格。Prometheus遵循开放计算项目标准,单个机架最多可容纳四台服务器,预计每机架总功耗约120千瓦,采用冷板液冷散热。服务器的内存采用模块化设计,意味着初始配置未达到128TB上限的机器,日后可根据需求升级扩容。

定价方面,尽管内存容量相当惊人,Majestic仍希望给出一个具有竞争力的价格。他们的底气在于用DRAM取代了HBM,成本更具优势。具体价格尚未公布,服务器预计2027年正式发货。

Rabii最后放了一句狠话:“根据不同的工作负载,客户的资本支出将下降10到50倍,能耗也能同步降低同样的幅度。”

Q&A

Q1:Prometheus服务器为什么能配置这么大的内存?

A:它采用了专有的微型铜缆内存接口,有效传输距离可达一米,突破了传统内存接口只能工作在几毫米内的物理限制。同时配合自研内存聚合芯片,统一调度服务器内所有DRAM资源,从而实现最高128TB的超大内存配置,远超采用HBM方案的传统服务器。

Q2:Ignite芯片和英伟达GPU有什么区别?

A:Ignite将数据中心级ARM应用核心与RISC-V向量及张量核心集成在单颗芯片上,并共享统一内存空间。ARM核心负责模型调度,RISC-V核心负责实际的大语言模型推理计算,无需跨处理器传递数据。而英伟达GPU主要依赖HBM与独立主机CPU协同工作,架构逻辑有所不同。

Q3:Prometheus服务器支持哪些主流AI框架?

A:Prometheus支持PyTorch、vLLM以及OpenAI的Triton推理框架,且无需对现有代码进行任何修改。这意味着已基于上述框架开发的大语言模型可以直接在Prometheus上运行,大幅降低了用户的迁移成本和技术门槛。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策