
Drut Technologies成立于2018年,总部位于美国新罕布什尔州纳舒厄,业务覆盖美国、印度及欧洲市场,是OCS光子解聚合技术领域的先驱企业之一。团队核心创始人之一的Jitender Miglani(现总裁兼董事长)曾任Calient Technologies工程副总裁,主导MEMS光开关技术研发,2018年创立Drut后初期任CEO。


在OCP研讨会上,Drut公司的Simon McCormack发表了题目为Break the Rack with Light的报告。报告指出当前AI数据中心面临的核心矛盾:传统机架架构中服务器与GPU的物理绑定导致资源利用率长期低于30%,而大语言模型参数从80亿到4050亿的指数级增长(如Llama3.1 405B),同时模型优化技术(如CPU层卸载、量化、动态量化)又推动小型化、专用化模型的普及,导致AI workload对硬件资源的需求始终处于动态变化中。

传统静态数据中心架构(CPU机架、GPU机架、存储机架独立分离,所有流量依赖ToR交换机)无法适配这种动态需求:一方面,GPU等核心资源被“绑定”在固定机架内,闲置时造成资源浪费;另一方面,当模型需要多类型、多数量资源组合时,静态架构难以快速响应,导致训练/推理效率低下。此外,GPU硬件生命周期仅2-3年,而服务器更新周期更长,固定架构下的“捆绑升级”进一步增加了企业的TCO(总拥有成本)。

◆ 服务器解耦:重构数据中心资源分配逻辑
Drut将“服务器解耦”(Server Disaggregation)视为解决上述困境的核心方案——即打破传统服务器的“CPU-内存-GPU-存储”一体化结构,将硬件资源拆分为独立的资源池(CPU池、GPU池、存储池、FPGA池等),再通过动态互连技术,跨机架组合成“定制化机器”(Composed Compute System)。

这种解耦架构的核心价值在于:
1. 资源弹性分配:根据AI workload需求,实时调配GPU、存储等资源,例如为大模型训练分配32路GPU,为轻量推理分配1-2路GPU,避免资源闲置;
2. 独立升级路径:GPU、服务器可分别升级,无需因GPU迭代而更换整台服务器,延长硬件生命周期,降低升级成本;
3. 跨机架扩展:突破物理机架的限制,实现资源的全局调度,满足大规模AI集群(如GPU Farms)的部署需求。
而实现服务器解耦的关键,在于低延迟、高带宽的动态互连技术——这正是Drut 2500系列光子架构与光交换(OCS)的核心应用场景。

◆ 核心硬件组件:2500系列的光子互连基石
Drut 2500系列通过“Fabric Interface Card(FIC 2500)+ Photonic Resource Unit(PRU 2500)”的硬件组合,构建了服务器解耦的物理基础。
1. Fabric Interface Card(FIC 2500):服务器与光子 fabric 的桥梁

FIC 2500是插入服务器(主机)PCIe Gen5插槽的光纤接口卡,承担“连接主机与资源池”的核心角色,其关键技术参数与功能包括:

- 形态与兼容性:采用全高半长(FHHL)设计,适配标准PCIe Gen5 x16插槽,兼容市面上所有带可用PCIe插槽的现成服务器(Off-the-Shelf Servers),无需定制硬件;
- 互连能力:搭载2或4个CPO 2.0 光模块连接器,每个CPO引擎提供8个独立通道,支持16x100G(2个CPO)或32x100G(4个CPO)的fabric端口带宽;通过MPO16单模光纤电缆连接,单卡总吞吐量可达1.6 Tbps(2个CPO)或3.2 Tbps(4个CPO);
- 资源扩展:每台服务器可部署1-2张FIC 2500,支持最多32路GPU per主机(通过连接PRU 2500资源池实现),满足AI/ML对大规模GPU集群的需求;
- 软件协同:与Drut DynamicXcelerator软件深度集成,实现实时带宽分配、故障冗余与资源调度——例如动态调整PCIe通道为x8或x16模式,适配不同workload的带宽需求。

此外,FIC 2500分为“发起端”(iFIC 2500,部署于服务器)与“目标端”(tFIC 2500,部署于PRU 2500),两者通过光子fabric实现PCIe Gen5信号的远程传输, latency远低于传统电互连,确保GPU-to-GPU、GPU-to-storage的直接通信效率。
2. Photonic Resource Unit(PRU 2500):集中式资源池载体

PRU 2500集中承载GPU、FPGA、NVMe存储等PCIe资源的高密度 chassis,其核心特性包括:

- 插槽配置:共16个插槽,其中12个为PCIe Gen5 x16设备插槽(10个双宽插槽,支持高功率GPU;4个单宽插槽,支持FPGA、SmartNIC等),4个为主机插槽(用于部署tFIC 2500,连接外部服务器);
- 互连带宽:每个tFIC 2500支持16x100G或32x100G fabric带宽,4个tFIC 2500可连接4台主机(x16模式)或8台主机(x8模式),实现资源池与多服务器的灵活对接;
- 供电与散热:配备4个3000W热插拔电源,支持6个120mm x 38mm热插拔风扇,满足8路双宽GPU的高功率需求(单插槽功率可达600W+);
- 环境适应性:工作温度范围0°C~35°C,存储温度-20°C~70°C,符合数据中心标准环境要求,尺寸为深度650mm×宽度447mm×高度175mm,适配标准机架安装。
典型部署中,2台PRU 2500(每台8路GPU)可通过iFIC 2500连接4台服务器,形成“4服务器+16GPU”的资源集群,支持AI推理、HPC等场景的动态资源组合。

◆ OCS与CPO技术:实现低延迟光子互连的关键
Drut报告强调,“PCIe remoting over Optical Circuit Switch(OCS)”是服务器解耦的技术核心——即通过OCS(光电路交换机)构建动态光子fabric,实现PCIe信号的长距离、低延迟传输;而CPO技术则是提升光子互连密度、降低功耗的关键突破。

1. OCS的作用:动态光路由
Drut的光子fabric基于OCS实现“动态互连”:OCS作为Layer-1层交换机,可实时调整iFIC 2500与tFIC 2500之间的光子通路,无需依赖传统以太网或InfiniBand的协议转换,从而将latency降至亚毫秒级(满足AI/ML对低延迟的严苛要求)。例如,当Server A需要调用PRU 2500中的GPU资源时,OCS可直接建立Server A(iFIC)与PRU 2500(tFIC)的光子通路,数据传输无需经过多跳交换机,效率显著提升。
2. CPO技术:Drut与Ranovus的合作突破
Drut 2500系列是首批商用CPO解决方案之一,其核心在于集成了Ranovus的ODIN® CPO光学互连技术——该技术将激光器、调制器、光电探测器、驱动电路等关键模拟组件单片集成EPIC,相比传统可插拔光模块,具有三大优势:
- 更高密度:CPO 2.0连接器支持每端口8个通道,单卡可实现32x100G带宽,远超传统模块的密度;
- 更低功耗:省去了可插拔模块的独立封装与电-光转换环节,每100G带宽的功耗降低30%以上,缓解数据中心的供电压力;
- 更好的扩展性:支持PCIe Gen5/Gen6/Gen7及高速以太网,为未来更高带宽需求预留升级空间。
Ranovus:共封装光学(CPO)技术演进与AI计算生态的革新之路
DesignCon 2025: Ranovus/联发科/富士康的CPO方案
◆ 软件协同:DynamicXcelerator实现资源动态编排

硬件层面的解耦与互连,需要软件层面的“编排大脑”——Drut DynamicXcelerator作为服务器软件栈,负责将硬件资源转化为“软件定义的资源池”,其核心功能包括:
1. vPOD创建与隔离:将CPU切片、内存切片、GPU、NIC等资源组合成虚拟资源单元(vPOD),vPOD可跨服务器、跨fabric(以太网、InfiniBand、光子fabric)部署,且物理隔离,确保不同用户/workload的资源安全;例如,8路GPU服务器可拆分为3个vPOD(5路GPU+2路GPU+1路GPU),分别分配给不同AI任务;

2. 实时资源调度:通过Drut Fabric Manager(DFM)实现GPU、存储等资源的实时分配与重分配——当某一vPOD的任务结束后,GPU可立即释放并分配给其他任务,资源利用率提升40%以上;
3. 兼容性与易用性:支持现成服务器、多厂商GPU(如NVIDIA、AMD)与RDMA-capable NIC,无需定制硬件;提供AI/ML工作bench,自动化配置模型环境,用户可直接调用vPOD资源,无需关注底层互连细节。
◆ 技术收益与应用场景:赋能AI/ML与HPC
Drut的解耦方案在AI/ML、HPC等场景中展现出显著价值:
- AI/ML推理加速:集中式GPU池通过光子fabric连接多服务器,模型推理时间最多缩短80%;支持多代GPU混合部署,旧GPU可用于轻量推理,延长硬件生命周期;
- HPC集群优化:亚毫秒级延迟与99.999% 正常运行时间,满足气象模拟、量子计算等 mission-critical 任务的需求;
- GPU-as-a-Service(GPUaaS):云服务商可通过vPOD实现GPU的精细化分配,按用户需求提供1路、4路、8路等不同规格的GPU资源,基础设施成本降低30%;
- 存储资源池化:将NVMe存储集中部署于PRU 2500,通过光子fabric实现服务器与存储的直接连接, 配置时间缩短60%,存储利用率提升40%。
◆ 结论:光子解耦架构重塑数据中心未来
Drut报告的核心观点——“固定容量基础设施浪费资源,解耦方案提供AI所需的灵活性”,在Drut 2500系列中得到了完整落地:通过FIC 2500与PRU 2500构建的硬件基础,结合OCS与CPO的光子互连技术,再以DynamicXcelerator实现软件编排,Drut成功将静态数据中心转变为“资源可动态组合、带宽可实时调整、升级可独立进行”的动态环境。

这种架构不仅解决了当前AI/ML的资源瓶颈,更通过“光子+软件定义”的技术路线,为未来PCIe Gen6/Gen7、高速以太网等更高带宽需求预留了扩展空间。正如Drut与Ranovus的合作所体现的,CPO等光子技术的商用化,将进一步推动数据中心从“铜缆时代”迈向“光子时代”,为AI算力的持续增长提供底层支撑。