搬运一个Alphawave Semi公司首席技术官Tony Chan Carusone在2023年的关于CPO的报告,这家公司本身是做高速Serdes和Chiplet的,这个报告也类似于Tutorial 的性质,不过介绍得蛮清楚的,把CPO的发展和演进及未来挑战都做了客观的呈现。 以下是直接将演讲者的发言原文直接翻译,分成四个部分,分别介绍背景,CPO的应用场景、机遇与挑战以及光/电/封装的协同优化。以下为第二部分的翻译。 但问题是,这给专用集成电路带来了沉重负担,因为它是一个进行大量数据运算的芯片,需要用非常先进的nm级 CMOS 技术来实现,而现在却要求这个芯片还要容纳一堆带宽高达数十GHz的放大器,可这些技术原本不是用来做这个的 最后一种情况,就是利用硅光子的光电集成例如GF的 45 nm CMOS 加硅光子学技术就是一个例子。
搬运一个Alphawave Semi公司首席技术官Tony Chan Carusone在2023年的关于CPO的报告,这家公司本身是做高速Serdes和Chiplet的,这个报告也类似于Tutorial 的性质,不过介绍得蛮清楚的,把CPO的发展和演进及未来挑战都做了客观的呈现。 以下是直接将演讲者的发言原文直接翻译,分成四个部分,分别介绍背景,CPO的应用场景、机遇与挑战以及光/电/封装的协同优化。以下为第三部分的翻译。 ,把硅光子学技术融入进去,采用不同的激光技术来降低功耗并相互竞争,能制造出 50 Tbps、100Tbps交换机的公司非常少,屈指可数,而在这种新模式下,还是这几家公司,它们也将负责所有的光学研发工作, 当然,封装技术需要不断发展来跟上这个需求,这是好事,意味着这个芯片间链路缓解了瓶颈问题,其他瓶颈问题才会成为限制因素,这是好的方面。
前段时间,关于TSMC和Nvidia、Broadcom合作开发硅光技术的新闻引起了大家的广泛关注。巨头们的强强联合,必定会对硅光产业带来深远的影响。 Broadcom是目前仅有的几家发布CPO产品的公司,这篇笔记主要介绍下其CPO技术上的进展与细节。 Broadcom的硅光CPO产品如下图所示。 每个RLM中含有8个DFB激光器,因此可以支持32路PIC, 即一个RLM支持一个光引擎。 (图片来自文献1) 以上是对Broadcom硅光CPO技术的简单介绍,主要有三个特色:1)采用在EIC上TSV last的方案进行3D封装方案;2)通过双透镜阵列实现可插拔光学连接器;3)采用外置可插拔光源模块的方案 一方面我们看到了Broadcom的技术方案,可以借鉴参考,更重要的是他们为何没有选择其它方案,这背后的考虑。
搬运一个Alphawave Semi公司首席技术官Tony Chan Carusone在2023年的关于CPO的报告,这家公司本身是做高速Serdes和Chiplet的,这个报告也类似于Tutorial 的性质,不过介绍得蛮清楚的,把CPO的发展和演进及未来挑战都做了客观的呈现。 以下是直接将演讲者的发言原文直接翻译,分成四个部分,分别介绍背景,CPO的应用场景,机遇与挑战以及光/电/封装的协同优化。以下为第一部分的翻译。 CPO这个领域非常火热,目前有大量的研发工作正在进行,备受重视,也令人振奋,这是理所当然的,因为它是一项令人激动的技术。 它有可能降低成本,因为使用多个较小的芯片裸片而不是一个大芯片,芯片良率会提高,还能在系统的某些部分使用旧一些的技术,这样设计和制造的成本会更低,通过结合不同技术,针对不同功能使用最适合的技术,还能在一个封装内实现新的功能
该项目始于2021年,于2025年3月结题,核心目标是通过共封装光学(CPO)技术降低数据中心链路功耗。 创新硬件技术 开发超紧凑VCSEL收发器、CPO板及交换机服务器原型,目标是将链路功耗从传统可插拔光模块的20pJ/bit降至7.3pJ/bit(CPO方案)。 2. ◆ 多模场景 开发28Gbaud NRZ/PAM4调制的8通道多模收发器,验证8通道同步运行,为高速率调制技术奠定基础。 2. 五、CPO子板与交换机服务器集成验证 ◆ CPO板设计 单块集成电接口板可容纳8个光学收发器,尺寸10cm×10cm,支持32个收发器垂直光纤布线,适配ASIC芯片,实现高密度光学互连。 六、结论 古河电工在NICT B5G Brighten项目中,通过超紧凑VCSEL收发器技术创新,在25-56Gbaud速率范围内实现了低至4.5pJ/bit的链路能量,验证了CPO技术在AI
电学链路损耗 根据Broadcom的分析,单波100G时,LPO的电学链路损耗约为15dB, CPO场景仅有5dB, 单波200G时,LPO的链路损耗约为21dB, CPO约为8dB。 而CPO的典型单波速率为200Gbps,Broadcom最新CPO里单个光引擎含64通道,总带宽为12.4Tbps,而Nvidia CPO中单个光引擎含8个道通,总带宽为1.6Tbps。 比较有趣的是,Andy大佬在OCP 2018年邀请报告里提及了CPO技术,当时还是比较认可CPO技术路线的,但是需要较长时间的持续投入,"This is a multi-year project, let 而对于CPO技术,风浪大,收益也大,需要克服多个领域的工程难题,make it ready for deployment。 AI互联场景下对带宽密度、功耗、延迟等要求都非常高,可能CPO是唯一的技术选择,迎难而上是更好的选择。LPO与CPO是相互竞争,还是长期共存,应用在各自所擅长的场景?
前面根据ECTC 2023的会议文章,介绍了Broadcom的CPO技术(Broadcom的CPO进展)。 但文中的CPO产品并不是Broadcom最新一代CPO,最近凑巧在Linkin上划水时看到了一张图片,涉及到了博通最新一代51.2T CPO产品的一些技术细节,这里和大家分享一下。 FOWLP技术原本是为了解决随着芯片面积的减小和I/O接口数的增多,导致芯片内无法提供足够多空间放置I/O接口的难题。 借助FOWLP技术,在molding中制作VIA,同时给EIC和PIC供电。在FOWLP流程中,需要对edge coupler区域做特殊保护。 厂商合作,从而得到CPO生态系统的支持。
传统电互连与板级光模块已难以满足这一诉求,而共封装光学(CPO)技术通过将光电转换器与CPU、GPU等处理单元(xPUs)近距离集成,缩短电互连路径,实现了功耗降低与带宽密度提升,成为行业关注的焦点。 2023年,光互联论坛(OIF)发布实施协议(IA),明确了CPO模块的结构与传输条件,为技术标准化与产业化奠定基础。 一、CPO模块核心结构设计 CPO模块的结构设计严格遵循OIF IA文档标准,核心由光电转换单元与集成波导的基板构成。 六、结论 SIEOM技术的研发成功,突破了传统倒装芯片键合仅适用于电连接的局限,实现了CPO模块中光电转换器与聚合物波导的同步电光互连。 实验证实,SIEOM技术可将面内对准精度控制在±5 μm以内,光电耦合损耗低至0.3 dB,满足32 Gbps NRZ传输的性能要求,为CPO模块的标准化量产提供了高效、可靠的技术方案。
Hou博士,于2025年8月在中国台湾台北举办的OCP APAC会议上发表的Keynote报告,聚焦异构芯片集成与先进共封装光学(CPO)技术,旨在为HPC(高性能计算)/AI领域提供性能与能效突破方案 报告首先介绍两大核心技术平台:一是CoWoS®,作为通用型2.5D封装技术,按中介层尺寸分为CoWoS-S/L/R等版本,可实现逻辑芯片与多颗HBM(高带宽内存)的高效集成,是HPC/AI加速器的关键异构集成支撑 ;二是COUPE,基于台积电SoIC®堆叠技术的紧凑型通用光子引擎,通过将EIC(电集成电路)与PIC(光子集成电路)堆叠,具备小尺寸、高功率效率优势,晶圆级测量显示其净插入损耗(IL)为0,1D光栅耦合器 报告核心围绕二者集成的CPO封装展开,指出该方案相较传统铜布线(Cu Wire)、可插拔式光引擎(OE),功耗未来可降至>2pJ/bit(传统可插拔方案>10pJ/bit),延迟仅为传统方案的<0.05X 报告最后总结,CoWoS®与COUPE的集成将推动HPC/AI组件进入功耗与性能新纪元,同时强调需通过供应链创新与合作,满足下一代硅光子CPO的高带宽要求。
RANOVUS的ODIN® CPO技术将功耗降至传统方案的1/3(3MW),尺寸与成本压缩至1/10,预计2027年开始,CPO使能大规模AI集群的计算+存储+光互连将会到来。 三、CPO技术图谱:从芯片设计到生态落地的多维竞争 1. (Ravonus同样采用微环调制器方案,今年DesignCon会议上刚报道了8×8×112Gbps的硅光CPO引擎DesignCon 2025: Ranovus/联发科/富士康的CPO方案)。 2. 技术路线分化:XPU-CPO vs Switch-CPO - XPU-CPO:聚焦算力单元集成,如RANOVUS 2024年推出的ODIN® ASOE系列,内置激光源版本功耗低至4pJ/bit,外置版本则为 RANOVUS作为少数覆盖全AI计算细分领域(商用、定制、晶圆级)的CPO厂商,其技术路线被视为行业标杆之一。
本文基于NTT Innovative Devices的Wataru Ishida在2025年OCP APAC会议上的技术分享,系统梳理了CPO的技术背景、核心挑战、关键特性及未来前景。 - Scale-out网络(如IB/Ethernet):以ConnectX-8为例,单链路带宽800Gbps,虽单链路带宽较低,但可扩展性极强(支持超10k节点),适用于分布式计算场景。 五、Retimers、LPO与CPO:技术路径的对比 在高速互联技术演进中,Retimers、LPO(Linear Pluggable Optics)与CPO代表了不同的技术选择,各有其局限性与优势 OCP educational webinar的调查显示了行业对CPO部署时间的预期: - 2-5年内:49% - 2年内:39% - 已就绪:8% - 未来十年(或永不):5% 对于行业而言,当下的核心任务是凝聚共识,推动标准化与实用化技术的突破,让CPO从“潜力技术”真正转化为“生产力工具”。
会议发表了一篇题目为High Density Multiple Series Optical Connector for Glass Waveguide Substrate 的文章,介绍了一款面向玻璃基板CPO ◆ CPO技术背景下的光互连需求 共封装光学(CPO)技术通过将光收发器与交换ASIC集成于同一基板,实现下一代数据中心低功耗高容量的交换功能。 实际应用中,光子集成电路(PIC)与光纤的连接需满足三大要求: - 可拆卸性:避免封装过程中光纤处理的复杂性,需移除光纤侧连接器端子 - 回流兼容性:CPO基板的回流焊工艺要求连接器耐260℃高温 - 高密度集成:玻璃基板因低介电常数(高频传输优势)、低翘曲(<5μm)及低热膨胀系数(2.8ppm/℃),成为CPO优选基板之一,需适配其边缘的多通道光连接。 ◆ 结论 Furukawa研发的超小型可分离光连接器可实现玻璃基板上的多通道高密度连接,具备低插入损耗、高稳定性和耐久性,适用于CPO技术需求。
需要说明的是,这些子组件是可拆卸的,因此严格来说,纯粹主义者可能认为这在技术上属于“近封装光学(NPO)”,而非严格意义上的“共封装光学(CPO)”——不过,SA认为可拆卸光引擎带来的额外信号损耗,不会对性能产生显著影响 Quantum-X800 ASIC关键参数 每个光引擎配备8个电通道和8个光通道:电侧采用200G PAM4 serdes驱动;光侧采用8个微环调制器(MRM),通过PAM4调制实现每个调制器 尽管博通在CPO领域拥有最多经验,但这种技术方案的转变意味着,博通必须在某些技术方面重新开始——问题在于,台积电能为博通的设计提供多少支持,以降低设计难度。 这种对IO设计和放置的彻底重构,充分释放了光学技术的潜力。 Celestial AI技术的核心差异化优势在于其采用的电吸收调制器(EAM)。
每个光引擎含8个通道,总速率为1.6Tbps。每三个光引擎组合成一个模组,单颗switch芯片配置6个模组,如下图所示,总带宽为28.8Tbps(1.6*3*6)。 对于整个CPO交换机来说,共需要144个激光器。Nvidia采用了外置可插拔的激光器模组,每个模组中含有8颗激光器芯片,面板上方有18个接口为激光器模组使用。 每个MPO连接器中使用8路光纤,总的光纤数目为1152。CPO交换机背面插满激光器和光纤的形貌,如下图所示。如此多的光纤数目,光纤在CPO交换机内部的走线与管理,也是一个需要解决的问题。 对于CPO交换机和微环调制器,这两项技术都不是最新的idea, 但它们的组合带来的能效提升,大大降低了AI集群中在网络连接上的功耗与成本。这也是Nvidia大力推动该技术落地的初衷。 CPO不仅仅是光电芯片设计,涉及到先进封装、激光器、光封装、结构设计、散热等多个技术难点,Nvidia利用其一流的供应链,整合了多方技术力量,最终实现了基于MRM的CPO交换机量产,开启了CPO时代!!
多芯光纤工作组(Fujikura/AFL公司 Nickhil Angra主席):开发多芯光纤技术,材料消耗减少75%,目标应用于收发器及共封装光学(CPO),相关技术章程进入成员投票阶段。 3. 核心封装光学(CPO)工作组(ColorChip 公司 Bryan Hall主导):针对CPO技术落地挑战,推动生态系统驱动的标准化,减少封装方案差异化。 4. 四、先进封装技术:IBM的CPO创新与挑战 (一)3D封装技术架构与高密度集成实践 IBM凭借其在半导体先进封装领域的深厚积累,构建了覆盖“研发-制造-测试”的全流程技术体系: (二)Ayar Labs的光学chiplet技术突破 Ayar Labs今年在OFC上展示全球首款光学赋能UCIe chiplet,实现 8 Tb/s全双工通信,采用电芯片(EIC)与光子芯片 随着CPO、多芯光纤等技术的成熟,光子集成有望成为数据中心物理层的核心基础设施,为人工智能的持续突破提供底层支撑。
④ 联合高通实现1.6Tbps单光纤带宽纪录,8倍领先行业现有方案 2026年3月11日,Lightmatter联合高通技术公司宣布,其Passage CPO芯粒成功实现单光纤1.6Tbps 的吞吐量纪录,通过16波长DWDM架构与单通道112G SerDes,实现了相比现有NPO/CPO方案最高8倍的单光纤带宽密度。 ① 8波长DWDM 50Gbps NRZ CPO链路中基于量子点SOA实现9dB链路余量增益 该论文首次完成了SOA在8λ×400GHz间隔DWDM CPO链路中的实验评估,验证了量子点半导体光放大器 ▲ 研究结论 该研究首次验证了14dB光增益的QD-SOA可为8波长DWDM CPO链路提供约9dB的额外链路余量,仅引入2.0dB的总链路代价,为DWDM CPO链路实现一个数量级以上的链路余量提升提供了可行路径 本次分享将聚焦AI算力向百亿亿次及以上发展的过程中,光子技术作为核心使能者带来的底层变革,分析从PIC、AI算力Pod到AI工厂全链路的数据传输挑战,探讨硅光技术、线性光学与CPO、光交换(OCS)等先进光互连技术的最新突破
CPO交换机。 (图片来自文献1) 对于scale-out网络互联的需求,Broadcom的第二代CPO交换机总带宽达到51.2Tbps,系统中含有8个光引擎,分布在交换机芯片的四个方向。 博通采用的是TWMZM方案,没有像Nvidia那样直接采用MRM方案(Nvidia与Broadcom CPO方案的对比,可以参看CPO时代来临——Nvidia公司CPO交换机的一点分析)。 (图片来自文献1) 针对上述的CPO GPU attch,Broadcom提出了下图所示的scale-up网络架构,512个GPU分布在8个rack上,通过64个CPO switch,实现512颗GPU 不知道今年的标题会不会变成"We need CPO now! "。看起来,随着Nvidia、Broadcom这些巨头们在CPO交换机的布局与推进,CPO交换机的到来与应用已经是必然趋势。
在今年的ECOC会议上,Meta发表了其对Broadcom CPO系统的一系列评估测试结果, 从使用方的角度考察评估了CPO交换机的各项性能。 Baily含有8个光引擎,每个光引擎的速率为6.4Tbps,其内部结构如下左图所示。Meta在其数据中心规模化部署CPO交换机,下图中共8个机架,每个机架内放置7台CPO交换机。 作为对比,不同vendor家的FR4*2光模块的功耗在15mW左右,采用CPO后,功耗降低了65%。而与LPO方案相比,CPO方案节省约35%功耗。 512个通道的BER均小于5e-8。 这一系列可靠性数据的收集,是CPO技术发展历程中的重要里程碑,充分证明了CPO方案在数据中心/智算中心部署的可行性,回答了产业界对其reliability的质疑。
64位的跳转,可用两种方法,下面两个方法都是绝对跳转指令,第一个影响rax寄存器,可能需要先保存原来的rax的值: 1, 48 b8 ef cd ab 89 67 45 23 01 mov rax, 跳转指令是 14 字节,而我们 // 修改了 PsLookupProcessByProcessId 的头 15 字节(正好三条指令),前 6 字节 // 是指令,后 9 字节并不是指令,而是数据(前 8 ori_func; //step 3: fill jmp code tmpv = (UINT64)Proxy_ApiAddress; memcpy(jmp_code + 6, &tmpv, 8) psLookupProcessAdress, pslp_head_n_byte, pslp_patch_size); } 头文件 LDE64x64.h 百度搜一下,有很多,我就不帖了 5.VEH_HOOK VEH技术的主要原理是利用异常处理改变程序指令流程 irql; ULONGLONG myfun; // 保存原KeBugCheck前15个字节 memcpy(OldKeBugCheckData, KeBugCheckEx, 15); // 48b8a024100480f8ffff
由于Nvidia CPO交换机的重磅发布,#CPO 技术受到了业界广泛的关注。 可插拔光学连接器 可插拔光学连接器(detachable optical connector)的开发,是CPO可测试性的必要条件,因此每家公司都花费了较多的资源开发这一技术。 以上是对CPO可制造性这一workshop讨论的简单整理。CPO作为硅光技术的最为耀眼的一颗明珠,在大量部署应用前,需要攻克多个技术难题。 CPO的可测试性、可靠性、可插拔光学连接器与大批量组装方案,是大家比较关注的方向。虽然每家公司的技术路线目前并不完全一致(未来是否会形成统一标准?),但是涉及到的问题是共性的。 而为了提高良率与降低成本,采用便于大批量生产组装的方案,采用晶圆级的先进封装技术。