光芯片热度解析:2024趋势与前景排行榜
硅谷AI基础设施的快速迭代暴露出一个棘手的物理瓶颈:铜缆的数据传输容量存在天然上限。当负载突破临界值,热管理、传输距离与功耗问题将急剧恶化。
这直接解释了为何风投、芯片巨头与云服务商开始密集押注光子学——利用光信号替代电信号,实现AI芯片与服务器之间的数据互连。
在Lightmatter位于硅谷的总部,这家初创企业近日向媒体演示了其最新的人工智能数据中心光子硬件。演示后,CEO尼克·哈里斯接受了访谈,深入探讨了光学技术为何被视为AI时代的关键基础设施。
哈里斯履历亮眼——麻省理工博士,公司融资顺利,已从谷歌、富达、T. Rowe Price等顶级机构累计融资8.5亿美元。本周二,Lightmatter正式加入英伟达NVLink Fusion生态系统,此举确保其光子技术与英伟达核心AI硬件的无缝协同。
以下是经过精简的对话实录。
为何AI公司突然对光子学兴趣大增?
哈里斯直言不讳:行业已抵达转折点——性能提升的关键不再是单芯片速度,而是如何将成千上万个GPU高效互联。
当前AI系统高度依赖GPU间的铜缆互连。小规模部署尚可应付,但当企业需要串联数百乃至上千个GPU训练前沿模型时,铜缆立即成为瓶颈——电信号在短距离内迅速衰减,同时产生大量热量。
光子学通过光纤传输光信号,数据可传得更远、更快且功耗更低。
“假设你有500个GPU,用铜缆将它们连接在一个纵向扩展域中,目前训练任务就是这样跑的。”哈里斯举例:使用铜缆,需要四个独立的GPU服务器机架才能容纳500块GPU;“但全部换成光纤,你可以直接将500块GPU互联。训练AI模型的时间将大幅缩减。以Claude这样的前沿模型为例——速度可提升三倍。”
“率先掌握这项技术的公司,将能在前沿竞赛中以更快节奏发布新模型。他们有两个选项:每月推出一个新车型,或者花三个月推出一个规模更大的。”他补充道。
换个角度看:“如果能源供应受限,同样功耗下你能获得三倍性能。原本1吉瓦的功率,用起来就像3吉瓦。或者,相同功耗只需三分之一时间即可完成训练。”
AI数据中心内,铜缆连接究竟存在哪些问题?
“铜缆的有效传输距离大约只有一米。”哈里斯解释道。电信号在铜缆中快速衰减,“大约一米后,数据就会丢失。”
这一物理限制还引发散热难题。由于铜缆距离受限,数据中心内的GPU服务器机架只能紧密堆叠。“它们挤在一起,”哈里斯说,“问题在于必须叠放才能保证铜缆连接,但散热变得极其困难。”
光子学彻底改变了局面。光信号能传输更远、更快且无衰减,因此GPU服务器和机架可以灵活拉开间距。“光学器件不关心间距,”哈里斯说,“它们可以相距一公里。”
这意味着数据中心运营者在设计AI集群与散热方案时,获得了更大的灵活性,有望节省大量冷却能耗成本。
什么是双向通信(BiDi)?为何它至关重要?
Lightmatter正在推进一项更具实用价值的创新——减少数据中心内部的布线量。哈里斯透露,某些下一代AI集群需要大约300英里的线缆。Lightmatter的目标是通过名为BiDi(双向通信)的技术,将线缆长度削减一半。
“通常,无论铜缆还是光纤,要在两个GPU之间建立连接需要两根线,”哈里斯解释,“一根发送,一根接收。”
Lightmatter的方案将两个方向的线缆合并为一根。对于超大规模数据中心而言,缩短光纤长度至关重要——线缆占用空间、产生热量、增加维护复杂度,从而推高成本。Lightmatter指出,从300英里降到150英里,能极大简化大规模AI集群的部署。
为何光子学没有更早得到部署?
哈里斯的答案十分直接:成本。“光子学太贵了,”他说。
但这一局面正在改变。制造工艺持续改进,加之AI基础设施需求井喷。“设计这些系统的人追求稳健的2倍性能提升——带宽翻倍、性能翻倍,并且坚持按周期实现。过去铜缆还能挤出一些性能增长,但现在已经没有余地了。不仅如此,还有更强大的驱动力:业界意识到,率先采用并部署光子技术的公司——英伟达大概率是其中之一——会获得巨大的性能优势。”
“过去是‘不得已才转换’,现在则是为了赢得竞争优势而主动转换。”哈里斯总结道。
