OCP EMEA 2026 Open AI Fabric：模块化光子交换MHS架构评测

2026-06-18阅读 0热度 0

模块化

2026年4月底，在巴塞罗那的OCP EMEA大会上，Lightmatter公司生态系统发展负责人Bijan Nowroozi抛出了一个值得整个行业关注的新架构——"Open AI Fabric"。简单来说，这是一个基于OCP MHS（模块化硬件系统）平台的模块化光子交换参考架构，目标直指当前AI基础设施最头疼的互连瓶颈。通过开放标准加硅光子技术，这套方案试图大幅提升AI计算效率、压低token成本，顺带打破那些封闭的"围墙花园"。

AI基础设施的互连危机：效率与成本的双重挑战

先说一个让人有点尴尬的数据：目前数据中心的模型浮点运算利用率（MFU）只有38%到43%。换句话说，超过一半的计算资源其实是闲着的。导致这种浪费的因素很多，但通信开销稳稳地排在第一，后面还跟着链路抖动、性能不稳定这些老问题。整个AI行业其实陷入了一个矛盾——一边是AI带来的巨大价值（自动化、安全防护等等），另一边是高端AI能力和普通用户之间越来越大的鸿沟。而这条鸿沟的底部，恰恰就是AI基础设施的低效率和居高不下的成本。

从更宏观的角度看，AI计算的扩展路径呈现出一种分形模式：从晶体管到芯片，再到chiplet、板卡、机架，最终到集群和数据中心。但这条路径正在撞上物理定律的南墙。按照Rent法则，芯片的逻辑面积是二次方增长，而IO带宽只随芯片周长线性增长——计算能力跑得越来越快，IO能力却跟不上。与此同时，铜互连技术也在逼近极限。SerDes速率从112Gbps提到224Gbps、再提到448Gbps时，铜缆的信号传输问题越来越棘手。为了应对，不得不用更贵的主板材料（比如Megtron 9）、双轴电缆这些特殊技术，结果基础设施成本蹭蹭往上涨。当成本增速超过性能提升速度时，整个行业的效率就会陷入停滞。

传统解决方案的局限性与光子学的机遇

面对互连瓶颈，行业其实试了不少路子，但各有各的坑。传统可插拔光模块有面板密度瓶颈和高功耗的问题；共封装光学（CPO）虽然解决了电迹长度问题，但把敏感的激光光源直接暴露在ASIC产生的高温里，可靠性、可用性和可维护性（RAS）都大打折扣。

这时候，光子学被寄予厚望——高带宽、低延迟、低功耗，能突破铜互连的物理极限。但现实是，光子学行业本身也乱成一团：市场上超过50家公司做着各种优秀的光子技术产品，但大部分都是孤立的、一次性的解决方案，缺乏统一标准和规范。这种碎片化局面和服务器行业形成了鲜明对比——服务器行业也是50多家玩家，但大家遵从统一标准，构建了一个健康高效的生态系统。Lightmatter认为，光子学也该走这条路：通过开放合作和标准化来释放技术潜力。

Open AI Fabric：四大支柱构建开放光子基础设施

基于这个理念，Lightmatter联合了一帮志同道合的公司，在2025年底到2026年初启动了Open AI Fabric项目。核心目标很清晰：基于OCP MHS平台，开发一个开放、模块化、可扩展的光子交换参考架构——说直白点，就是给芯片时代做一个"USB接口"。

这个参考架构建立在四大支柱上，完全对齐IEEE 802.3和OIF的技术路线图，针对200G每通道的信令做了优化，并且充分考虑了向解耦式chiplet设计的转型。

1. 多层混合堆叠架构

Open AI Fabric提出了一种创新的多层混合堆叠方案——把下一代OAM（OCP翻跟斗模块）定义成一个混合3D堆叠，而不是传统的PCB。架构分成三个功能层：

第一层（底层）：实用RDL层，负责电源传输、接地、边带信号（I2C/GPIO）和PCIe控制。它把特定ASIC的凸点映射适配到标准的OAM引脚输出，给上层提供统一接口。
第二层（中间层）：高速数据中介层，处理所有超过100G的数据流量。采用任意到任意的光学网状路由，为模块化设计预留了空间。
第三层（顶层）：逻辑层，集成ASIC和HBM内存，专注计算任务。

这种分层架构天然地把内存流量按带宽需求做了分离：HBM内存保持本地低延迟访问；近内存处理（PNM）chiplet和高带宽闪存池可以利用光子中介层，打破邻近性约束；CXL内存则通过实用层路由，提供可扩展的低延迟访问。

2. 激光与ASIC的热解耦设计

一个关键创新是采用了OIF兼容的ELSFP（外部激光小尺寸可插拔）模块或XPO MSA技术，把激光光源和中央计算复合体做了物理和热隔离。这就解决了CPO技术最大的痛点——激光的热管理问题。传统CPO方案里，激光和ASIC封装在一起，ASIC的高温严重影响激光性能和寿命。而在Open AI Fabric架构中，激光被放在独立的ELSFP模块里，可以单独冷却，甚至支持液冷。而且ELSFP模块支持现场更换，系统可维护性大幅提升。

3. 高基数交换设计

为了降低token成本，高基数交换被列为核心设计原则之一。项目团队的目标是实现1024基数的交换能力，每通道速率超过400Gbps。为了支撑这个目标，系统托盘的布局做了全面优化：前面板采用模块化设计，允许用户按需选择连接器类型（包括XPO和非XPO）；定义了ELSFP模块的标准安装位置和冷却方式；为光学shuffle预留了标准安装空间；还规范了电缆路由、连接器类型、损耗要求等一堆细节。

特别值得一提的是，团队正在开发背板盲配光纤连接器技术——这是个很难攻克的难题，但一旦搞定，系统设计会更灵活，支持全前向访问或后向访问等多种部署模式。

4. 全栈开放与互操作性

Open AI Fabric不只是搞硬件，它还致力于构建一个完整的开放软件栈。架构支持SAI（交换抽象接口），实现软件定义控制，为横向扩展的互操作性和纵向扩展的低延迟提供了统一的编程接口。同时，它充分利用了Open Chiplet Economy的成果，定义了开放芯片管理接口（OCMI），支持boot、地址转换、系统管理和安全等功能。物理层则支持多种chiplet间通信协议，包括UCle、BoW、I3C/I2C等。

这种分层互操作性设计确保了平滑升级路径：今天可以用铜高速IO，未来无缝迁移到光子中介层，无需重新设计ASIC或修改实用层。

系统级影响与经济效益

Open AI Fabric带来的改变是全方位的。技术层面，它同时解决了多个老矛盾：CPO保证了200G信号的完整性，ELSFP缓解了CPO对激光的热影响；前面板实现最大光纤密度，同时高故障率的激光组件保持热插拔能力；架构既满足纵向扩展的低延迟需求，又保留了标准以太网横向扩展的灵活性。

经济层面更直接。根据演讲中给出的数据，这套架构有望把数据中心MFU从38%–43%提升到65%左右。这个提升直接转化为token成本的大幅下降，进而形成一个良性循环——更便宜的token刺激更多需求，更大规模又进一步降低成本。此外，系统层数能减少40%以上；每千瓦功率支持的计算密度提高200倍；平均无故障时间（MTBF）提高5倍。这些叠加起来，将显著降低AI基础设施的总拥有成本（TCO）。

标准化计划与行业合作呼吁

目前项目正在快速推进。团队计划近期发布一份愿景白皮书，随后启动交换机和计算平台的基础规范制定。目标是在2026年第三季度完成面向公众评审的AI开放交换基础规范草案。为了确保开放性和广泛适用性，项目团队正积极寻求与多个标准组织（IEEE、OIF、SNIA等）的合作，在链路架构、激光技术、互连标准和系统集成等各层面实现协调统一。

演讲最后, Bijan Nowroozi向整个行业发出了合作呼吁。要解锁AI的全部潜力，需要构建更好的系统，而要构建更好的系统，就需要整合整个供应链的力量。项目团队特别需要机械工程、热工程和光学工程领域的专业知识支持。

结语

Open AI Fabric的提出，标志着AI光子互连技术从碎片化的单点解决方案向标准化、开放化的系统架构迈出了关键一步。它基于成熟的OCP MHS平台进行创新，既最大限度地保护了现有投资，又为未来技术升级预留了充足空间。随着AI模型规模不断增长、应用场景不断拓展，互连瓶颈将成为制约行业发展的关键因素。Open AI Fabric为解决这个问题提供了一个清晰、可行的路线图。如果能获得行业的广泛采纳和支持，它很有希望成为下一代AI基础设施的标准，推动AI技术走向更高效、更普惠的方向。