首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Celestial AI:5nm CMOS与硅光3D集成的56Gb/s NRZ光收发器

Celestial AI:5nm CMOS与硅光3D集成的56Gb/s NRZ光收发器

作者头像
光芯
发布2026-03-02 20:28:35
发布2026-03-02 20:28:35
1570
举报
文章被收录于专栏:光芯前沿光芯前沿
本文工作由Celestial AI团队完成,相关成果发表于IEEE JOURNAL OF SOLID-STATE CIRCUITS (https://ieeexplore.ieee.org/document/11404735),完整呈现了一款面向AI光计算I/O场景的混合硅光子(SiPh)与5nm CMOS 3D集成收发器,核心围绕热鲁棒性、功耗/性能/面积(PPA)优化实现技术突破。

一、AI算力爆发下的互连技术瓶颈

近年来AI与机器学习的快速发展,推动AI算力需求以每6个月翻一番的速度增长,显著超过了传统摩尔定律下XPU性能、内存容量与I/O带宽每2年翻一番的演进节奏。为匹配算力需求,AI集群规模已扩展至1万~10万个XPU,随着生成式AI模型规模与复杂度的持续提升,以及AI推理、智能体AI的发展,集群规模仍需持续扩大,海量数据的传输、存储与访问已成为AI数据中心的核心性能瓶颈。

AI数据中心的网络可分为两类:scale-out前端网络通过分层交换机连接多个计算集群,现有以太网、InfiniBand技术可充分满足需求;而scale-up后端网络用于连接单个机架或跨机架的AI加速器/XPU,当前基于铜基的互连方案已无法满足大规模集群对带宽、延迟、功耗、传输距离的要求——当集群规模超过数百个XPU时,scale-up互连需跨多个机架,超出了100+Gb/s铜链路的有效传输距离。

现有商用光互连方案存在明显局限:可插拔光模块虽广泛应用于scale-out网络,但无法满足scale-up网络对带宽密度、延迟、功耗效率的要求;线性可插拔光学(LPO)方案通过移除模块内的DSP降低了功耗,但带宽密度仍受限于可插拔形态。而封装内光互连技术将光学模块拉近至计算ASIC,在同一封装内实现集成,可同时解决可插拔方案的功耗与带宽瓶颈,为AI scale-up网络提供高能效、长距离的互连解决方案。

本文提出的混合硅光+CMOS收发器,专为未来AI计算系统的封装内光I/O设计,核心通过两大方向实现技术突破:一是采用基于电吸收调制器(EAM)的硅光平台,相比当前主流研究采用的微环调制器(MRM),具备更优异的固有温度鲁棒性;二是采用先进5nm CMOS工艺实现电子集成电路(EIC),实现了PPA的全面优化。

二、面向AI互连的Photonic Fabric技术架构

光计算互连(OCI)技术通过将光学引入ASIC封装,可实现高带宽、长距离的光互连网络,用于连接XPU、交换机与存储集群,打破了现有电互连固有的带宽-距离权衡限制,实现计算与内存资源的解耦,解决AI数据中心的资源利用率与内存瓶颈问题。

◆ 封装内光互连的两种实现路径

本文提出了两种封装内光互连的实现形态,可适配不同的AI系统需求:

第一种是chiplet级实现,光收发器作为独立chiplet集成至ASIC封装内,采用EIC与PIC的3D堆叠结构,可最小化封装尺寸与电光寄生参数,同时实现电子与光子芯片制造工艺的独立优化;Host ASIC与光互连chiplet之间可通过UCIe等标准化die-to-die接口通信,核心优势是无需对高成本的主机ASIC进行定制化修改,但受限于芯片边缘的焊盘资源,可实现的带宽密度仍存在瓶颈。

第二种是硅光中介层实现,将光互连chiplet内的电子电路迁移至ASIC,同时扩展PIC作为光中介层,彻底突破了chiplet方案的芯片边缘限制;该方案虽需要对ASIC进行定制化设计以直接对接光学接口,但可带来两大核心收益:一是消除了数据传输至芯片边缘、跨die跳转的功耗开销,提升了能效;二是移除了芯片边缘对封装外I/O的布局限制,释放的封装空间可用于提升HBM容量。

◆ 高热稳定性的核心光器件设计

封装内光互连的核心需求是紧凑型、微米级的光调制器,当前绝大多数光I/O研究均采用MRM,其为可调谐谐振器件,直径通常为10~20μm,但谐振特性使其对温度变化高度敏感,需要复杂的主动热控环路。本文采用锗硅(GeSi)EAM作为核心调制器件,基于Franz-Keldysh(FK)效应实现光强调制,具备远超MRM的固有热鲁棒性,可适配高功耗ASIC附近的严苛热环境,尤其是硅光中介层方案的极端温度波动场景。

该EAM器件为长度约50μm的横向p-i-n二极管结构,通过调制p-i-n二极管的偏置电压改变GeSi波导内的电场,进而改变其光吸收特性,可在C波段与L波段实现光强调制。FK效应具备亚ps级的响应速度,可支持>50GHz的3dB电光带宽,同时具备宽光谱特性,晶圆级测试显示其1dB光谱带宽>35nm,既可为密集波分复用(DWDM)提供充足的带宽扩展空间,也可适配中介层配置下PIC的快速温度变化。

通过优化GeSi层的带隙,该EAM可在L波段(约1570nm)工作,1.8Vpp调制电压下即可实现>3dB的消光比(ER)。实测显示,在0dBm输入光功率、2Vpp调制幅度下,2V反向偏置、无额外控制信号的条件下,>25℃的温度变化范围内,光调制幅度(OMA)变化<0.5dB;在30℃~80℃的温度范围内,固定2V偏置下OMA约有2dB的变化,通过随温度升高线性降低反向偏置幅度,可将OMA变化控制在<0.5dB,晶圆级测试验证其可耐受>80℃的温度变化,OMA损失<1dB,具备优异的热鲁棒性。

配套的硅光平台还集成了完整的核心光器件:GeSi光电二极管(PD),具备1A/W的响应度与>50GHz的带宽;基于微环的波分复用/解复用器,支持DWDM扩展;低损耗光栅耦合器;通用无源光路由库,可基于单波长EAM收发器扩展为紧凑型DWDM收发器。

三、5nm CMOS收发器电子学设计与3D集成架构

本文的3D集成硅光收发器由硅光PIC与CMOS EIC两部分组成,PIC集成EAM与PD,通过低轮廓铜柱3D贴装至EIC,PIC与EIC进行协同设计,最小化关键电光接口的寄生参数,同时满足供电需求;光信号通过PIC内的低损耗光栅耦合器与贴装的光纤阵列单元(FAU)实现与外部光纤的耦合,同时FAU为PIC路由来自外置光源的光功率。

EIC采用5nm CMOS工艺实现,集成了所有接口电子电路,全局PLL从外部200MHz参考时钟生成14GHz差分时钟,通过稳压CMOS时钟缓冲器驱动的传输线,分配至4组TX与RX通道。

◆ 发射机(TX)电路设计

发射通道由64:1串化器、预驱动与EAM驱动器组成,为最小化功耗,64:1串化器的最后一级采用基于14GHz正交时钟的4:1 CMOS串化器架构,正交时钟由每通道内的注入锁定环形振荡器(ILO)本地生成,ILO锁定至全局PLL分发的14GHz差分时钟。针对4:1串化器对14GHz I/Q正交时钟的相位误差(QPE)敏感的问题,设计了连续的后台校准机制:一是通过模拟控制环路持续监测ILO四相输出的相位偏移,调整其自由振荡频率;二是通过带可编程输入图案的复制4:1串化器,同时检测占空比误差与QPE。

4:1串化器输出的全速率56-Gb/s CMOS电平信号,经预驱动缓冲后输入EAM驱动器。为补偿4:1串化器输出节点的带宽限制,预驱动内设计了基于反相器多电阻反馈的sub-UI发射均衡,可实现最高3dB的预加重,与传统DAC-based发射预加重相比,可实现适中的带宽扩展效果,同时功耗开销显著更低。

针对EAM所需的1.8Vpp调制电压(叠加随温度变化的偏置),而5nm CMOS工艺的标称Vdd仅为0.9V的矛盾,EAM驱动器采用双堆叠反相器拓扑,共源共栅N/P器件的栅极标称偏置为Vdd,开关PMOS的输入相对于开关NMOS输入进行了Vdd电平位移,可在无电过应力的条件下实现2×Vdd的输出摆幅。设计中分离了N/P共源共栅的栅极偏置,支持在0.9V标称值附近的有限可调范围,用于补偿EAM非线性与工艺偏差带来的上升/下降时间不对称;驱动器PMOS开关的电平位移通过偏置在1.5×Vdd的AC耦合器实现,输出匹配网络集成T-coil,用于适配driver、ESD、EIC/PIC焊盘、bump与EAM器件的寄生,同时调谐至提供约2dB的峰值,补偿下游链路的带宽限制。

◆ 接收机(RX)电路设计

RX模拟前端(AFE)的核心功能是放大单端光电流输入,将其转换为差分信号,供给后续采样器。PD-TIA接口的有效电容(来自PD、ESD、AFE输入电容与bump寄生),会对光接收机的灵敏度产生显著负面影响,传统高速跨阻放大器(TIA)前端常用的电感与T-coil会占用大量面积,限制先进CMOS工艺带来的面积缩放收益。为此,设计中将输入T-coil分布式布设在多个金属层,在<50μm²的面积内实现了600pH的电感,同时将构成电感线圈的下层金属的电阻吸收至跨阻反馈网络中,在不牺牲性能的前提下大幅减小了面积开销。

AFE的第一级放大采用反相器型并联反馈TIA(SF-TIA),其输出电压的平均值与复制TIA的输出进行对比,调整TIA输入处的电流沉,实现一阶直流失调消除(DCOC),DCOC环路的低通滤波器调谐至200kHz的低截止频率。后续的gm-ZT级采用电感峰值技术实现带宽扩展,通过差分共源放大器(CSA)将gm-ZT放大器的输出与gm级的平均值进行对比,实现单端到差分的转换;CSA与gm-ZT级的R-C源极退化支持调谐,可适配输入光电流的带宽与幅度变化。每通道集成片上LDO,将AFE的电源稳压至0.9V。该RX AFE可实现标称65dBΩ的跨阻增益,同时提供22GHz的3dB带宽与2μA-rms的输入参考噪声,通过最小化放大器级数、将单端转差分延迟至最后一级,将AFE功耗降低至26mW。

数据采样与时钟恢复采用四路时间交织采样器,基于积分型采样保持放大器实现低功耗的增益放大,通过每相增益调节校准四路之间的失配。每个采样切片内设置三个限幅器:一个数据限幅器与两个误差限幅器,数据限幅器的标称阈值为零,两个误差限幅器的阈值分别调谐至标称比特“0”与“1”电平,为无损耗波特率Mueller-Muller(MM)CDR提供完整的误差检测支持。与TX通道一致,采用ILO生成所需的四相14GHz时钟,通过可调延迟缓冲器消除QPE;四路时间交织切片的MM鉴相器输出分别进行平均,用于检测与校正QPE,其聚合平均值驱动基于PLL的CDR,将标称采样相位居中,实现4MHz的抖动跟踪带宽。

针对采样器的增益与相位失配,设计了多步校准机制:初始化阶段,通过向所有四路时间交织切片输入共同的直流差分电压,实现QPE的前台校准;CDR使能后,通过MM鉴相器的输出实现QPE的连续后台校准,可显著降低四路采样切片的眼图裕量不对称。

四、原型实现与测试验证

本文完成了3D集成光收发器原型的流片与测试验证,原型采用5nm CMOS EIC通过铜柱倒装焊至PIC,FAU贴装在PIC上,支持TX/RX光数据传输,同时路由外部1570nm激光器的光功率。EIC布局包含4组56-Gb/s NRZ TX/RX通道与共享的全局PLL,单组TX-RX对的面积仅0.09mm²。

◆ 发射机实测性能

时钟与抖动测试显示,PLL与时钟分布网络的输出RMS抖动为152fs(4MHz CDR带宽以上);传输56-Gb/s码型时,光发射机输出的RMS抖动为637fs(包含仪器TIA的噪声贡献)。光眼图测试显示,室温环境下传输56-Gb/s PRBS13码型时,光发射机在光纤输出端实现-4.4dBm的OMA与3.5dB的消光比,预驱动均衡、QPE校正、驱动器上升/下降时间控制可显著优化光眼图的开启度与质量。

温度鲁棒性测试中,将PCB温度从15℃扫至80℃,通过~25mV/℃的自适应EAM偏置调整,TX OMA的最大劣化仅0.6dB,充分验证了EAM的固有热鲁棒性。

◆ 接收机与完整链路实测性能

完整光链路测试采用两块分别搭载收发器的PCB,通过光纤连接,两块PCB使用独立的参考时钟,解串后的RX数据发送至外部FPGA进行误码检测。实测结果显示,在BER<1e-12的条件下,RX OMA灵敏度达到-11dBm;环回链路配置(TX与RX通道由共同的PLL提供时钟)下,-10.5dBm RX输入OMA时,1e-9 BER下实现了0.18UI的时序裕量,同时完成了抖动容限(JTOL)测试验证。

功耗与带宽密度方面,收发器电子学的总能效为2.8pJ/bit,其中60%的功耗来自RX;基于最优1:8分光比与耦合损耗测算,激光源的能效约为1pJ/bit。单通道面积仅0.09mm²,实现了>600Gb/s/mm²的面带宽密度。

与已发表的同类型先进工作相比,本工作采用业界最先进的5nm CMOS工艺实现EIC,单波长数据速率达到56Gb/s,高于现有同类型工作的32Gb/s、50Gb/s水平;采用EAM调制器实现>3.5dB的消光比,与同类型EAM方案相比,RX灵敏度相当,面带宽密度提升3.4倍,能效提升11%,同时集成了更多的RX限幅器以支持无损耗波特率CDR。

五、结论

本文成功演示了一款混合硅光与5nm CMOS 3D集成收发器,专为解决AI计算中的数据移动瓶颈的光计算互连设计。该收发器采用紧凑型、高固有热鲁棒性的GeSi EAM,可同时适配新兴的chiplet型光I/O与未来的硅光中介层型Photonic Fabric架构,后者可彻底消除芯片边缘对带宽密度的限制,充分释放光I/O的性能潜力。

实测验证了该收发器可实现56-Gb/s/λ的NRZ数据传输,在BER<1e-12下达到-11dBm的RX OMA灵敏度,面带宽密度>600Gb/s/mm²,电子学能效2.8pJ/bit,激光源能效约1pJ/bit,为AI计算系统的高带宽、高能效、高热鲁棒性光互连提供了可行的实现方案。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-03-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 光芯 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档