首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Cignal AI研讨会:面向AI扩展和数据中心自动化的光交换OCS技术

Cignal AI研讨会:面向AI扩展和数据中心自动化的光交换OCS技术

作者头像
光芯
发布2025-07-24 17:05:56
发布2025-07-24 17:05:56
2.1K0
举报
文章被收录于专栏:光芯前沿光芯前沿

本文档来自于2025年7月17日,Cignal AI组织的题目为Optical Circuit Switching

for Al Scaling and Datacenter Automation的在线研讨会,包括Lumentum、Telescent、iPronics、Coherent等企业参与了该研讨会,会议内容涵盖了OCS的基础定义、关键属性、发展历程、应用场景、市场规模、各企业技术方案(MEMS vs Robotic vs SiPho vs DLC)、技术挑战及未来趋势等。

一、OCS基础定义与核心信息

1. 定义

光交换(OCS)是一种无需光电/电光(O/E/O)转换,直接实现光信号在光纤端口间切换的技术,核心是“移动光信号而非电信号”,路径中无O/E/O再生环节。

2. 发展历程

并非新技术,90年代已有多家企业开发,最初应用目标是电信网络,通过光纤将光信号从一个端口切换到另一个端口,无O/E/O转换。早期以自动化布线面板形式存在,约25年前已出现,切换速度并非关键参数,成本需与技术人员人工成本竞争,部署有限,主要在电信和实验室场景。

3. 关键属性

- 光损耗:交换机光损耗会影响链路预算,长距离光链路对损耗敏感,需控制连接器损耗、减少接线面板。

- 交换速度:不同技术切换速度差异大,部分应用需毫秒级及以下(ms或更少),部分无严格要求(秒级及以上)。

- 可切换端口数量(radix):不同应用需求不同,部分需最大可能的端口数,部分因高可靠性需求需更小端口数。

- 可靠性:对AI应用尤为关键,故障影响范围(blast radius)可能极大;需与电分组交换机可靠性相当或更优(如AI集群场景)。

- 其他属性:低延迟(速度和协议无关,网络升级时无需改变)、低功耗、低成本等,是其核心优势之一。

- 技术路线:包括MEMS(Google, Bright, Lumentum,Dicon),液晶(Coherent),机器人(Telescent),压电(Huber-suhner)以及硅光集成(iPronics, n-eye)等。

二、OCS应用场景

1. 谷歌公开场景

- 数据中心spine层替换/重排:用OCS替代电交换顶层,谷歌报告显示可降低40%功耗、30%成本,提升30%吞吐量;部署256x256交换机,且更大端口数为需求方向。

- AI集群重构

类似“智能patch面板”,深度嵌入AI架构,需48个128x128 OCS,支持4096 GPU超级集群(含6144个双向连接,每连接8个光通道),可灵活调整AI集群拓扑、绕开故障,提升效率;初期为手动触发,当前已实现自动化,端口数需求随超级集群规模增长。

2. 其他公开场景

资源池化/数据中心解聚、AI后端网络、虚拟汇接室、园区数据中心互联等,每种应用对OCS关键属性的优先级不同。

3. 应用价值

重构能力可使生产级大语言模型(LLMs)性能提升超3.3倍;对大规模机器学习(ML)部署,需大端口数支持数千计算节点扩。

三、OCS市场规模

- Cignal AI预计到2029年,光交换OCS的总潜在市场规模(TAM) 将超过16亿美元。 - 假设条件 ① 谷歌历史支出:根据有关部署规模的公开信息确定,约为每套2.5万美元 。 ② 谷歌内部支出转移:从2025年开始,谷歌的内部支出将向外部供应商转移 。 ③ 骨干层替换应用成本:2025年约为200万美元,从2025年的少量(非谷歌内部)部署起步,到2029年增长至高两位数规模 。 ④ 人工智能集群配置应用成本:2025年约为120万美元,从2025年不足100次部署起步,到2029年增长至近1000次部署 。 ⑤ 小型应用:每套部署成本在1万 - 2.5万美元区间,从2025年数千套部署起步,到2029年增长至超5万套部署 。

四、各企业OCS技术方案

(一)Lumentum:MEMS光开关

1. 技术路线

基于MEMS(微机电系统)技术,核心是MEMS镜面阵列实现光切换。

2. 产品与性能

- OCS R300平台

2025年OFC展会上发布,支持SONiC操作系统、gNMI管理接口,采用模块化控制和驱动电子设备;N+1冗余电源和风扇,活性元件可现场更换,减少故障影响范围。

- 技术优势

低损耗(典型<1.5dB)、无抖动噪声;支持O、C、L波段,性能良好;3G冲击(ETSI EN 300 019)下损耗变化<0.3dB,5-100Hz振动(GR-63/GR-1360)无 measurable 响应;可靠性经现场验证,镜面运行小时超1万亿。

(二)Telescent:机器人OCS

1. 机器人OCS的核心设计与特点

- 技术设计:采用全光纤锁存设计,基于专利算法实现光纤端口间的任意连接,机器人抓取器支持多种连接器类型。

- 模块化与扩展性:采用“按需扩展”模式,支持非对称M×N配置,单个机架可扩展至超过16,000根光纤,端口配置包括1008x1008(支持LC-Simplex、SN-Duplex或MPO16等)。

- 光学性能:具备优异的光学性能,典型插入损耗<0.3dB,最大不超过0.5dB。

2. 主要应用场景

① 数据中心内部网络管理:与MOX Networks合作,实现远程测试与配置、快速客户支持、电缆故障地理定位、光学性能历史记录等,提升服务交付质量与效率。

② 虚拟汇接室(Virtual Meet-Me-Room):将传统3-7天的手动流程(包括确认工单、查找物理连接、手动输入记录等)优化为2小时的自动化流程,通过端口锁定/解锁、自动连接等操作缩短服务等级协议(SLA)时间。

③ AI训练与带宽优化:通过智能光纤重配置,根据工作负载调整GPU集群拓扑,使机器学习训练速度提升2-4倍,满足大规模AI训练对动态、高带宽数据交换的需求。

④ 混合解决方案:通过编排软件(支持OpenAPI)实现对多个交换机系统的简单控制,结合快速OCS模块,适用于快速且大规模的应用场景,支持故障路由绕行。

3. 性能优势与测试认证

- 可靠性:采用故障安全、低损耗的锁存连接,模块可现场维修,经测试使用寿命超过10年;自2019年起在多个生产网络部署,累计约130万系统小时和超过10亿端口小时的运行记录。

- 测试认证:通过NTS测试实验室的NEBS地震Zone-4(8.2级)和GR-63办公室振动测试,测试期间机器人持续进行连接操作,12个端口均无信号衰减;获得Telcordia NEBS Level 3、GR-63、GR-1089认证,通过多家一级客户的认证测试。

- 成本效益:大规模部署时,成本主要由光纤电缆主导,初始成本低,且支持“按需扩展”模式。

4. 总结

Telescent的机器人OCS以全光纤锁存设计、模块化扩展、高可靠性为核心,通过自动化流程优化数据中心网络管理、虚拟汇接室效率及AI训练性能,经严格测试认证,已在实际场景中验证其稳定性与适用性,适配大规模、动态化的网络需求。

(三)iPronics:硅光集成OCS

1. 核心技术与产品

- 技术方向:聚焦硅光子技术(SiN异质集成SOA),用于下一代AI网络,解决AI网络的扩展、可靠性等需求,需光交换重构。

- 产品系列:推出ONE系列光电路交换机,包括ONE32(2025年Q2开始向客户送样)、ONE64(2026年)、ONE128、ONE256,采用可编程硅光子芯片设计,32端口OCS包含2080个六边形调谐单元,4093路驱动器,约10,000个组件,波导长度为3cm。

(详细信息见:iPronics:应用于AI集群的无损光交换OCS技术)

- 设计特点:支持多平台和多格式,可连接不同网络,具备光I/O和可插拔光模块,基于1U机架产品。

2. 性能与优势

- 光学性能:ONE系列初步性能显示平坦响应,对BER影响小(FR/DR/LR的BER劣化<1个数量级),亚毫秒级重构,兼容全O波段操作,包括当前DR、LWDM和CWDM标准。

- 功耗:系统功耗30W,每个活动通道0.78W。

- 核心优势:成本效益高(最低$/端口)、可大规模生产、可靠、低功耗、高网络性能(增益控制链路、良好网络控制)、小尺寸(1U机架解决方案)、响应快(微秒级)

3. 应用场景

- 主要应用于AI后端网络,支持AI训练和推理,为大规模机器学习系统提供高速、可靠的光互连。

(三)Coherent:数字液晶DLC技术

1. OCS的发展与新用例

- 最初用例:OCS最初用例是自动化patch panel,已有约25年历史,切换速度非关键参数,成本需与技术人员劳动力竞争,部署有限,主要在电信和实验室。

- 新兴用例:需要软件驱动的自动化和极高可靠性,包括替代O-E-O分组交换机(前端网络)、AI集群后端扩展交换机(连接GPU,需快速切换和软件控制)、AI集群间工作负载平衡,这些新用例将推动OCS规模部署并降低成本。

2. Coherent核心技术与产品

- 技术选择:采用数字液晶技术的光电路交换机,基于该技术成熟度、高可靠性等优势。

- 产品特点:全光交换结构,端口数64x64到512x512;高可靠性,包括低驱动电压(<10V)、无机械移动部件、极低静态和动态串扰(动态串扰-45dB,切换时直接从一个输出到另一个,无中间状态,减少链路波动避免AI集群中因串扰导致的长FEC尾和链路波动)、低功耗(<90W)、数据速率无关(面向未来)。

- 技术对比:与MEMS、Robotic、Piezo、SiPho等技术相比,数字液晶技术在切换时间、插入损耗、驱动电压、动态串扰、移动部件、控制环路等方面有优势。

3. 软件与系统架构

- 软件支持:SONiC作为开源软件,原定义为Layer-2/3标准,现OCS的SONiC子组项目将其扩展到包含Layer-1 OCS电路。

- 系统架构:早期OCS部署有网络管理API,系统架构需考虑冗余(风扇、控制器、电源等),采用可现场更换单元(FRUs)。

4. 应用场景与优势

- 应用场景:支持OCS优化的光模块(如2x400G LR4-6 OSFP、400G FR4 QSFP-DD),补偿OCS插入损耗,保持标准合规;适用于AI集群互联(多建筑园区集群组合、虚拟元集群、 负载调度)

- 性能优势:OCS优化的收发器可补偿插入损耗(如FR4补偿3dB),无需增益,保持标准合规;数字液晶技术经现场验证,如基于该技术的波长选择开关(WSS)部署超16万台,累计303亿小时,故障率低(仅<3%故障归因于液晶),适用于海底网络等对可靠性要求极高的场景;无移动部件、无热设计、控制简单(成熟ASIC技术)、低电压(<10V)、低功耗(<90W),无需复杂主动补偿反馈回路。

5. 总结

当前因新技术出现,OCS适用于AI/ML等场景,随着用例发展,OCS架构及与数据中心网络的集成也将演进。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-07-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 光芯 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档