ICC讯 随着人工智能生成内容(AIGC)时代加速到来,大模型参数呈百倍级跃升,数据中心算力需求持续攀升。在这场技术变革中,传统电互连逐渐显现瓶颈,光互联正以更高带宽、更低功耗、更低时延的优势,迅速崛起为支撑智算中心高效运行的“神经系统”。近期,凌云光光纤器件与仪器事业部CTO张华博士在主题报告中,系统分享了智算中心光互联架构的演进路径、核心技术突破与未来发展趋势。
光互联网络的“两高两低”需求
AIGC的崛起,对智算中心的光互联网络提出了严苛的要求,可概括为“两高两低”:
高带宽:大模型训练需要海量GPU协同工作,交换数据量巨大,网络带宽成为核心瓶颈。据报告显示,AI大模型参数每两年扩展约100倍,而网络互联带宽仅增长约1.4倍,这之间存在巨大的差距。
高可靠:大模型训练往往需要数千块芯片共同分担,并持续数周甚至更长时间,任何故障都可能导致算力浪费,因此网络必须具备极高的可靠性。
低功耗:随着交换机Serdes和光模块速率及数量的增加,计算交换设备的功耗呈指数级增长,其中光模块功耗占比甚至高达设备总功耗的三分之一。
低时延:AI大模型是“大数据+大算力+强算法”的紧耦合场景。网络时延过大会导致GPU相互等待,降低GPU利用率。动态时延每增加10μs,GPU利用率可能下降1%至3%。
为应对这些挑战,AI网络架构普遍采用数据并行(DP)、流水线并行(PP)与张量并行(TP)等策略。其中,TP通常用于节点内通信,对带宽需求最高;DP和PP则更侧重跨节点互联。同时,AI网络架构分为Scale-Up(纵向扩展,提升单点算力密度)和Scale-Out(横向扩展,通过网卡实现超节点间互联)两种,对应不同光互联技术路径。
可插拔与CPO的协同演进
Scale-Out网络主要关注数据中心内部以及数据中心间的互联DCN。
1.光模块市场需求与演进
随着AI模型快速迭代,全球光模块市场迎来爆发式增长。2024年光模块出货量达2300万只,400G与800G成为主力;预计400G将在2025年、800G在2026年达到峰值,而1.6T光模块将从2026年起批量交付,3.2T光模块预计2029年开始发货。到2028年,400G及以上光模块市场规模将突破180亿美元。
2.可插拔光模块:功耗与密度的持续优化
Retimed可插拔光模块:作为当前主流,具备良好的扩展性与产业链成熟度。在AI驱动下,光模块升级周期已从4–5年缩短至约2年。
LPO (Linear-drive Pluggable Optics):通过移除DSP/CDR显著降低功耗,特别适用于1.6T/3.2T速率,但对主设备SerDes性能与PCB设计提出更高要求。
LRO (Linear Receiver Optics/Half LPO):在发射端保留DSP,接收端取消DSP,可降低约40%功耗,并兼容IEEE TP2,具备更好的互操作性。
多芯光纤(MCF)光模块:为简化海量光纤架构而生,如TeraHop展示的800G/1.6T 4×2模块,可将光纤数量减少4倍,支持更长距离传输。
此外,OIF已启动“High Density Connector”项目,面向3.2T/6.4T/12.8T等高带宽应用,推动前端可插拔与近封装光学(NPO)发展。
3. CPO(Co-Packaged Optics)共封装光学
CPO是一种将光芯片与交换芯片封装在同一基板上的集成方案,旨在缩短电信号传输路径、降低互连损耗,并显著提升带宽密度和能效。与传统的可插拔光模块相比,CPO通过更紧密的光电集成,有效缓解了数据中心中交换机与服务器之间网络连接的功耗与速率瓶颈,正逐步成为智算中心Scale-Out架构中的关键光互联技术。
Nvidia CPO方案:在2025年3月的GTC大会上,Nvidia正式发布其1.6T CPO交换机方案。该方案采用外置可插拔激光器(Laser),便于更换但需使用保偏光纤传输;使用微环调制器(MRM)实现高集成度,但对温度与制程变化较为敏感;并通过垂直耦合方式实现高带宽密度封装,但存在波长相关性挑战。这些设计凸显了CPO在高性能集成方面的技术复杂性和产业协同要求。
CPO与可插拔模块对比:与其他光模块形态对比,CPO在功耗、带宽密度和时延控制方面具备显著优势,适合未来高密度布线和大规模交换部署。然而,其产业链成熟度、生态兼容性及可维护性仍有待进一步提升。相比之下,LPO(线性驱动可插拔光模块)在功耗表现上达到当前可插拔形态中的最佳,但面临扩展性受限的问题;TRO(发射端重定时模块)则在系统兼容性、模块责任界定和能效之间实现了更为均衡的技术权衡。
总体来看,CPO正成为AI集群和高性能网络基础设施的核心支撑技术之一,随着标准化和产业生态的逐步完善,其应用有望在未来加速落地。
4. 单Lane 400Gbps实现突破
今年OFC 2025上,单Lane 400Gbps被广泛认为是未来高速光互联的重要突破方向,多家企业与研究机构展示了相关技术的最新进展。McGill大学联合Hyperlight、Ciena与Keysight,采用90GHz TFLN MZM与3nm SerDes DAC,实现了3.2Tbps(单路420.5Gbps)在2km光纤上的传输。华为则展示了110GHz带宽的InP EML器件,支持200G Baud PAM4(400Gbps)、190G Baud PAM6(475Gbps)及180G Baud PAM8(540Gbps)在30km标准单模光纤上的远距离传输能力。Aloe Semiconductor采用带宽仅55GHz的硅光MZM,实现425Gbps双偏振PAM4,有效降低器件带宽要求。此外,TeraHop与Coherent也分别展示了基于TFLN调制器与差分EML的400G-PAM4方案。这些成果标志着单通道400Gbps技术正加速迈向实用部署,成为下一代光互联的重要支撑。
AI算力扩张驱动下,Scale-Out架构逐渐普及。据LightCounting预测,Ethernet交换机将在2025年超过IB交换机,并在2030年占市场主导地位,光电路交换机(OCS)也展现出强劲增长势头。
然而,当前Scale-Out架构中的Spine交换机逐渐成为成为新技术应用的性能瓶颈。一方面,Spine交换机在大规模部署中通常被提前布置,随着速率提升,其成本和功耗迅速上升,在整个数据中心占比高达40%;另一方面,200G及以上速率的提升已难以依靠单纯堆叠硬件实现突破,网络整体能效提升正进入平台期。
Google的全光交换(OCS)实践:为应对上述挑战,业界正积极探索全光交换架构。以Google为代表的领先企业已在其数据中心广泛部署基于光电路交换(OCS)的架构,通过引入OCS替代Spine层,并结合SDN动态调整拓扑路由,实现了功耗下降40%,时延降低50%,网络CAPEX降低30%,Fabric拓扑重构速度提升10倍以上的显著效益。
然而,全光交换的部署仍面临拓扑和路由软件控制复杂等挑战,当前仍以Google为代表的头部企业在率先探索与应用。
光I/O的崛起与实现路径
Scale-Up网络主要关注芯片内部和芯片间的超高速互联。
1.光I/O (OIO) 的崛起
在算力需求持续攀升的背景下,芯片内部与芯片间的高效互联已成为智算中心架构升级的关键驱动力。光I/O(Optical I/O,简称OIO)正加速崛起,成为突破传统电互连带宽、距离与功耗瓶颈的重要方向。OIO通过将光芯片与GPU/XPU/CPU等计算芯片共封装于同一基板,以光信号替代电信号,实现了更高的带宽密度、更低的延迟与功耗,特别适用于支持超百卡规模的Scale-Up集群部署,可显著提升系统扩展能力与能效比。
2. OIO实现路径:可插拔与光电合封
在实现路径上,OIO技术正在沿着“可插拔+光电合封”两条路线同步推进。Google率先在Scale-Up架构中引入了基于OCS与可插拔光模块的OIO方案,逐步实现从400G、800G到1.6T的演进,满足ML场景对高可靠性与低延迟的连接需求。
而在更具集成度的光电合封方向,Ayar Labs推出了符合UCIe规范的光互连芯粒TeraPHY,搭配16波长SuperNova光源及GF流片的微环调制器,在富士通A64FX处理器平台上实现了高达8.192Tbps的双向带宽传输。Avicena则基于GaN材料开发了支持10Gb/s NRZ速率的microLED阵列,具备低功耗、低成本与高温环境下可靠性的优势,尤其适用于10米以内短距高速互联,在Scale-Up网络中展示出6.4T CPO的潜力。与此同时,TSMC通过其SiP平台与SoIC 3D先进封装工艺构建出高性能、低功耗的小尺寸光引擎COUPE,并集成热控制器以稳定调制器波长,进一步推动OIO从实验室走向大规模落地。
空芯光纤和长距相干
除了上述光互联技术,报告还提到了其他值得关注的先进光技术,特别是空芯光纤和长距相干传输:
空芯光纤(HCF):HCF以显著的低时延、低非线性、低损耗和宽谱特性,在超算、数据中心互联(DCI)、海缆等对时延有高要求的应用中展现出巨大潜力。由于大部分信号功率在空气通道中传输,HCF损耗可达0.1dB/km,提供了比传统光纤更低的时延(降低33%),这对提高光传输系统的效率意义重大。领先企业已发布了衰减为0.1dB/km的空芯光纤,进一步推动了这一技术的应用。
长距相干传输:针对高波特率系统中,激光器相位噪声与光纤色散耦合导致的均衡增强相位噪声(EEPN)问题,上海交大朱逸萧团队和北大张帆团队提出了一种创新方案,利用色散诱导的走离效应,通过残留载波和导频音分离发射机和本振的相位噪声,从而实现了更为高效的大容量长距相干传输。这项技术已在1.35MHz DFB激光器的基础上成功实现了400Gb/s的传输,距离达到了6720公里的标准单模光纤。这一进展大大提升了长距离通信的稳定性和性能,尤其在超长距离、大带宽的通信需求中具有广泛的应用前景。
这些先进光技术不仅推动了光互联向更高性能演进,也为实现下一代超高速、低时延网络提供了关键支撑。
凌云光在光互联领域的解决方案
聚焦800G/1.6T和先进封测
面对高速光互联加速演进,凌云光围绕光模块测试与光电芯片设计封装,构建了一套覆盖测试验证与先进封装的完整解决方案,赋能智算中心、超算互联与新型数据中心建设。
在高速光模块产线测试方面:凌云光推出面向800G/1.6T IMDD模块的自动化测试方案,兼容SR8、DR4等多种封装与协议,集成误码率(BER)、接收灵敏度、光谱、眼图、OTN/Ethernet误帧等关键指标分析。系统支持最多8通道并行测试、模块化扩展,配套参考模块与误码仪、示波器等设备,实现高速光模块的高效分选与稳定交付。
在光电子集成芯片测试方面:凌云光构建了从研发验证到量产的高精度测试体系。以EXFO PILOT自动化平台为核心,结合OPAL探针台、T500/T200扫频光源及光谱分析系统,实现对IL/RL/PDL、O波段光谱、扫频响应等参数的精准测试,具备皮米级分辨率、双向高速扫描与高通道并发能力,适用于硅光/InP等多平台芯片的全波段分析。
在光电子集成芯片封装方面:凌云光重点布局PWB(光子引线键合)与TGV(玻璃通孔)两大核心技术,支撑从芯片间互联到系统级封装的高密度光电集成需求。
PWB技术:采用双光子聚合3D激光直写技术,无需透镜与高精主动对准,实现芯片间亚微米级低损耦合(插损低至2dB),已通过Telcordia验证,并在哈佛大学、住友电工等项目中落地应用。
TGV技术:通过飞秒激光诱导改性+湿法腐蚀工艺,打造10μm级高纵深比低应力通孔结构,适配大尺寸玻璃基板封装,广泛适用于光纤阵列耦合、Bump引出、封装电通孔等场景,显著提升封装密度与可靠性。
当前,光互联正迈入“模块形态演进、封装集成升级、网络架构重构”三线并进的新阶段。凌云光以其在高速光模块测试、集成芯片验证与先进封装领域的深厚布局,积极参与并引领这一技术浪潮。未来,随着CPO、OIO、全光交换等前沿方案加速落地,光互联将持续突破带宽与能效瓶颈,成为AIGC时代智算中心高效运行的核心底座。