宣称每美元、每瓦 Token 可达英伟达 Rubin 五倍，Positron 公布 AI 推理芯片 Asimov

2026-05-05阅读 0热度 0

AI芯片 Positron

宣称每美元、每瓦 Token 可达英伟达 Rubin 五倍，Positron 公布 AI 推理芯片 Asimov

最近AI芯片圈又有新动静了。就在2月5号，一家名叫Positron的初创公司正式亮出了他们的第二代ASIC设计——Asimov。口气不小，直接宣称在生成每个Token的能效和性价比上，能做到英伟达下一代Rubin GPU的五倍。说实话，看到这个对比数字，我的第一反应是“真的吗？”，毕竟挑战英伟达可是个艰巨任务。但如果他们真做到了，那对整个推理成本的影响可就太大了。

那么他们的底气从哪来呢？根据Positron的分析，Transformer模型推理的瓶颈其实不在算力，而在于内存。这个观点我个人非常认同，在实际部署中，内存带宽和访问效率常常是拖慢速度、拉高功耗的隐形杀手。因此，Asimov这款芯片的设计思路非常明确，就是“内存优先”。它号称能实现高达90%的内存带宽利用率，并且从芯片架构层面就砍掉了那些不必要的远程数据搬运。这思路其实很聪明，好比你要在仓库里频繁取货，与其把仓库建得老远，不如直接把货架环绕在分拣员身边。

具体来看看这颗芯片的“内脏”。Asimov由一对计算模块构成，里面集成了支持多种数据格式的脉动阵列，这种设计对于AI计算来说灵活性很高。重点是内存配置：每个计算模块都直接连着432GB的LPDDR5x内存，这相当于给每个核心配了专属的“高速工作台”。此外，它还通过最新的PCIe 6.0和CXL 3.0接口，能访问最多720GB专门用于存放KV Cache的内存。Cache对长上下文推理至关重要，这个容量配置看得出是下了功夫的。整颗芯片的热设计功耗（TDP）控制在400W，总内存容量高达2304GB，总带宽更是达到了2.76 TB/s。值得一提的是，它支持传统风冷，这对许多数据中心来说是个降低部署门槛的好消息。

互联能力也是这类芯片的关键。Asimov支持拓扑结构灵活的芯片间互联，带宽有16Tbps。基于它打造的Titan推理服务器，采用了标准的19英寸4U机架规格，里面聚齐了4颗Asimov芯片。这样一个系统就能支持160亿参数模型的推理，上下文窗口长度达到1000万token。而且，这套系统还能横向扩展，据说最多能连接4096套Titan。这个规模，想想就挺震撼的。

当然，纸面参数再漂亮，也得看最终落地。根据Positron公布的路线图，Asimov芯片的目标是在2026年底完成流片，预计2027年初投入生产。这条路还很长，从设计到量产，挑战无数。但话说回来，有新的玩家带着新的思路入场，对推动整个行业的技术竞争和成本下降总是件好事。我们不妨保持关注，看看这颗以科幻小说家命名的芯片，未来能否真的在AI推理的星辰大海中留下自己的名字。

宣称每美元、每瓦 Token 可达英伟达 Rubin 五倍，Positron 公布 AI 推理芯片 Asimov

宣称每美元、每瓦 Token 可达英伟达 Rubin 五倍，Positron 公布 AI 推理芯片 Asimov

相关阅读

最新教程

最新资讯