宣称每美元、每瓦 Token 可达英伟达 Rubin 五倍,Positron 公布 AI 推理芯片 Asimov
宣称每美元、每瓦 Token 可达英伟达 Rubin 五倍,Positron 公布 AI 推理芯片 Asimov
最近AI芯片圈又有新动静了。就在2月5号,一家名叫Positron的初创公司正式亮出了他们的第二代ASIC设计——Asimov。口气不小,直接宣称在生成每个Token的能效和性价比上,能做到英伟达下一代Rubin GPU的五倍。说实话,看到这个对比数字,我的第一反应是“真的吗?”,毕竟挑战英伟达可是个艰巨任务。但如果他们真做到了,那对整个推理成本的影响可就太大了。
那么他们的底气从哪来呢?根据Positron的分析,Transformer模型推理的瓶颈其实不在算力,而在于内存。这个观点我个人非常认同,在实际部署中,内存带宽和访问效率常常是拖慢速度、拉高功耗的隐形杀手。因此,Asimov这款芯片的设计思路非常明确,就是“内存优先”。它号称能实现高达90%的内存带宽利用率,并且从芯片架构层面就砍掉了那些不必要的远程数据搬运。这思路其实很聪明,好比你要在仓库里频繁取货,与其把仓库建得老远,不如直接把货架环绕在分拣员身边。
具体来看看这颗芯片的“内脏”。Asimov由一对计算模块构成,里面集成了支持多种数据格式的脉动阵列,这种设计对于AI计算来说灵活性很高。重点是内存配置:每个计算模块都直接连着432GB的LPDDR5x内存,这相当于给每个核心配了专属的“高速工作台”。此外,它还通过最新的PCIe 6.0和CXL 3.0接口,能访问最多720GB专门用于存放KV Cache的内存。Cache对长上下文推理至关重要,这个容量配置看得出是下了功夫的。整颗芯片的热设计功耗(TDP)控制在400W,总内存容量高达2304GB,总带宽更是达到了2.76 TB/s。值得一提的是,它支持传统风冷,这对许多数据中心来说是个降低部署门槛的好消息。
互联能力也是这类芯片的关键。Asimov支持拓扑结构灵活的芯片间互联,带宽有16Tbps。基于它打造的Titan推理服务器,采用了标准的19英寸4U机架规格,里面聚齐了4颗Asimov芯片。这样一个系统就能支持160亿参数模型的推理,上下文窗口长度达到1000万token。而且,这套系统还能横向扩展,据说最多能连接4096套Titan。这个规模,想想就挺震撼的。
当然,纸面参数再漂亮,也得看最终落地。根据Positron公布的路线图,Asimov芯片的目标是在2026年底完成流片,预计2027年初投入生产。这条路还很长,从设计到量产,挑战无数。但话说回来,有新的玩家带着新的思路入场,对推动整个行业的技术竞争和成本下降总是件好事。我们不妨保持关注,看看这颗以科幻小说家命名的芯片,未来能否真的在AI推理的星辰大海中留下自己的名字。

