OCP EMEA 2026 Open AI Fabric:模块化光子交换MHS架构评测
2026年4月底,在巴塞罗那的OCP EMEA大会上,Lightmatter公司生态系统发展负责人Bijan Nowroozi抛出了一个值得整个行业关注的新架构——"Open AI Fabric"。简单来说,这是一个基于OCP MHS(模块化硬件系统)平台的模块化光子交换参考架构,目标直指当前AI基础设施最头疼的互连瓶颈。通过开放标准加硅光子技术,这套方案试图大幅提升AI计算效率、压低token成本,顺带打破那些封闭的"围墙花园"。
AI基础设施的互连危机:效率与成本的双重挑战
先说一个让人有点尴尬的数据:目前数据中心的模型浮点运算利用率(MFU)只有38%到43%。换句话说,超过一半的计算资源其实是闲着的。导致这种浪费的因素很多,但通信开销稳稳地排在第一,后面还跟着链路抖动、性能不稳定这些老问题。整个AI行业其实陷入了一个矛盾——一边是AI带来的巨大价值(自动化、安全防护等等),另一边是高端AI能力和普通用户之间越来越大的鸿沟。而这条鸿沟的底部,恰恰就是AI基础设施的低效率和居高不下的成本。
从更宏观的角度看,AI计算的扩展路径呈现出一种分形模式:从晶体管到芯片,再到chiplet、板卡、机架,最终到集群和数据中心。但这条路径正在撞上物理定律的南墙。按照Rent法则,芯片的逻辑面积是二次方增长,而IO带宽只随芯片周长线性增长——计算能力跑得越来越快,IO能力却跟不上。与此同时,铜互连技术也在逼近极限。SerDes速率从112Gbps提到224Gbps、再提到448Gbps时,铜缆的信号传输问题越来越棘手。为了应对,不得不用更贵的主板材料(比如Megtron 9)、双轴电缆这些特殊技术,结果基础设施成本蹭蹭往上涨。当成本增速超过性能提升速度时,整个行业的效率就会陷入停滞。
传统解决方案的局限性与光子学的机遇
面对互连瓶颈,行业其实试了不少路子,但各有各的坑。传统可插拔光模块有面板密度瓶颈和高功耗的问题;共封装光学(CPO)虽然解决了电迹长度问题,但把敏感的激光光源直接暴露在ASIC产生的高温里,可靠性、可用性和可维护性(RAS)都大打折扣。
这时候,光子学被寄予厚望——高带宽、低延迟、低功耗,能突破铜互连的物理极限。但现实是,光子学行业本身也乱成一团:市场上超过50家公司做着各种优秀的光子技术产品,但大部分都是孤立的、一次性的解决方案,缺乏统一标准和规范。这种碎片化局面和服务器行业形成了鲜明对比——服务器行业也是50多家玩家,但大家遵从统一标准,构建了一个健康高效的生态系统。Lightmatter认为,光子学也该走这条路:通过开放合作和标准化来释放技术潜力。
Open AI Fabric:四大支柱构建开放光子基础设施
基于这个理念,Lightmatter联合了一帮志同道合的公司,在2025年底到2026年初启动了Open AI Fabric项目。核心目标很清晰:基于OCP MHS平台,开发一个开放、模块化、可扩展的光子交换参考架构——说直白点,就是给芯片时代做一个"USB接口"。
这个参考架构建立在四大支柱上,完全对齐IEEE 802.3和OIF的技术路线图,针对200G每通道的信令做了优化,并且充分考虑了向解耦式chiplet设计的转型。
1. 多层混合堆叠架构
Open AI Fabric提出了一种创新的多层混合堆叠方案——把下一代OAM(OCP翻跟斗模块)定义成一个混合3D堆叠,而不是传统的PCB。架构分成三个功能层:
- 第一层(底层):实用RDL层,负责电源传输、接地、边带信号(I2C/GPIO)和PCIe控制。它把特定ASIC的凸点映射适配到标准的OAM引脚输出,给上层提供统一接口。
- 第二层(中间层):高速数据中介层,处理所有超过100G的数据流量。采用任意到任意的光学网状路由,为模块化设计预留了空间。
- 第三层(顶层):逻辑层,集成ASIC和HBM内存,专注计算任务。
这种分层架构天然地把内存流量按带宽需求做了分离:HBM内存保持本地低延迟访问;近内存处理(PNM)chiplet和高带宽闪存池可以利用光子中介层,打破邻近性约束;CXL内存则通过实用层路由,提供可扩展的低延迟访问。
2. 激光与ASIC的热解耦设计
一个关键创新是采用了OIF兼容的ELSFP(外部激光小尺寸可插拔)模块或XPO MSA技术,把激光光源和中央计算复合体做了物理和热隔离。这就解决了CPO技术最大的痛点——激光的热管理问题。传统CPO方案里,激光和ASIC封装在一起,ASIC的高温严重影响激光性能和寿命。而在Open AI Fabric架构中,激光被放在独立的ELSFP模块里,可以单独冷却,甚至支持液冷。而且ELSFP模块支持现场更换,系统可维护性大幅提升。
3. 高基数交换设计
为了降低token成本,高基数交换被列为核心设计原则之一。项目团队的目标是实现1024基数的交换能力,每通道速率超过400Gbps。为了支撑这个目标,系统托盘的布局做了全面优化:前面板采用模块化设计,允许用户按需选择连接器类型(包括XPO和非XPO);定义了ELSFP模块的标准安装位置和冷却方式;为光学shuffle预留了标准安装空间;还规范了电缆路由、连接器类型、损耗要求等一堆细节。
特别值得一提的是,团队正在开发背板盲配光纤连接器技术——这是个很难攻克的难题,但一旦搞定,系统设计会更灵活,支持全前向访问或后向访问等多种部署模式。
4. 全栈开放与互操作性
Open AI Fabric不只是搞硬件,它还致力于构建一个完整的开放软件栈。架构支持SAI(交换抽象接口),实现软件定义控制,为横向扩展的互操作性和纵向扩展的低延迟提供了统一的编程接口。同时,它充分利用了Open Chiplet Economy的成果,定义了开放芯片管理接口(OCMI),支持boot、地址转换、系统管理和安全等功能。物理层则支持多种chiplet间通信协议,包括UCle、BoW、I3C/I2C等。
这种分层互操作性设计确保了平滑升级路径:今天可以用铜高速IO,未来无缝迁移到光子中介层,无需重新设计ASIC或修改实用层。
系统级影响与经济效益
Open AI Fabric带来的改变是全方位的。技术层面,它同时解决了多个老矛盾:CPO保证了200G信号的完整性,ELSFP缓解了CPO对激光的热影响;前面板实现最大光纤密度,同时高故障率的激光组件保持热插拔能力;架构既满足纵向扩展的低延迟需求,又保留了标准以太网横向扩展的灵活性。
经济层面更直接。根据演讲中给出的数据,这套架构有望把数据中心MFU从38%–43%提升到65%左右。这个提升直接转化为token成本的大幅下降,进而形成一个良性循环——更便宜的token刺激更多需求,更大规模又进一步降低成本。此外,系统层数能减少40%以上;每千瓦功率支持的计算密度提高200倍;平均无故障时间(MTBF)提高5倍。这些叠加起来,将显著降低AI基础设施的总拥有成本(TCO)。
标准化计划与行业合作呼吁
目前项目正在快速推进。团队计划近期发布一份愿景白皮书,随后启动交换机和计算平台的基础规范制定。目标是在2026年第三季度完成面向公众评审的AI开放交换基础规范草案。为了确保开放性和广泛适用性,项目团队正积极寻求与多个标准组织(IEEE、OIF、SNIA等)的合作,在链路架构、激光技术、互连标准和系统集成等各层面实现协调统一。
演讲最后, Bijan Nowroozi向整个行业发出了合作呼吁。要解锁AI的全部潜力,需要构建更好的系统,而要构建更好的系统,就需要整合整个供应链的力量。项目团队特别需要机械工程、热工程和光学工程领域的专业知识支持。
结语
Open AI Fabric的提出,标志着AI光子互连技术从碎片化的单点解决方案向标准化、开放化的系统架构迈出了关键一步。它基于成熟的OCP MHS平台进行创新,既最大限度地保护了现有投资,又为未来技术升级预留了充足空间。随着AI模型规模不断增长、应用场景不断拓展,互连瓶颈将成为制约行业发展的关键因素。Open AI Fabric为解决这个问题提供了一个清晰、可行的路线图。如果能获得行业的广泛采纳和支持,它很有希望成为下一代AI基础设施的标准,推动AI技术走向更高效、更普惠的方向。










