用户名: 密码: 验证码:

800G与1.6T光互连的测试生态系统

摘要:AI数据中心向1.6T互连演进,推动LPO/CPO等新架构及相应测试标准快速迭代,对高精度BERT、示波器等测试设备与晶圆级检测提出更高要求,产业链多家公司参与生态建设。

  ICC讯 人工智能的快速发展改变了数据中心的建设方式。传统云计算的流量主要在用户和服务器之间纵向流动,但AI训练集群需要在数千个GPU之间横向传输海量数据来同步计算参数。这种架构转变将原本需要十年的技术演进压缩到短短几年内,迫使行业快速从400 Gigabit以太网推进到800 Gigabit,现在又向1.6 Terabit互连演进。在这场转变背后,存在着一个复杂的测试生态系统,负责确保这些超高速连接在实际部署时能够正常工作[1]。

图1:光学测试实验室,包括示波器、误码率测试仪和网络分析仪等多个机架的精密测试设备,用于验证高速光互连性能。

  01  标准体系的建立

  在任何光互连产品大规模生产之前,必须符合国际标准组织制定的严格规范。光互连论坛(Optical Internetworking Forum,简称OIF)通常率先定义芯片到模块以及芯片到芯片的电气接口,而电气电子工程师学会(IEEE)则建立包括光学组件在内的完整物理层规范。这些标准创建了通用语言,使不同制造商的设备能够无缝协作。

  当前800 Gigabit系统的基础建立在每秒112 Gigabit信号传输上,采用四电平脉冲幅度调制技术,也就是PAM4。这种编码方案通过使用四个电压级别而非早期的两个级别,在每次电气转换中封装更多信息。OIF的CEI-112G标准精确定义了这些电气信号的行为特征。对于主机芯片和可插拔收发器模块之间的连接,规范允许在关键奈奎斯特频率28 GHz处存在约10到16分贝的信号损耗,这意味着接收电路必须包含复杂的均衡线路来恢复原始数据。

  近期最显著的进展是CEI-112G-Linear规范,该规范从光学模块内部移除了功耗较高的数字信号处理器。在这种线性架构中,主机芯片的发射器通过简单的模拟放大器直接驱动光学组件。这种改变将模块功耗降低约一半,并显著减少信号延迟,非常适合对延迟敏感的AI应用。然而,这种架构简化对整个电气路径的信号质量和线性度提出了更严格的要求,彻底改变了这些模块的测试方法。

表1:信号标准的演进过程,通道速度从400G系统的50或100 Gigabit发展到800G的100 Gigabit,再到1.6 Terabit系统的200 Gigabit,以及每代对应的关键测试指标和相关标准。

  展望1.6 Terabit系统,行业正在通过CEI-224G框架定义每秒224 Gigabit的信号传输。在这个速度下,奈奎斯特频率达到约56 GHz,印刷电路板材料的物理特性变得极其关键。在这些极端频率下,铜迹线之间绝缘材料的介质损耗、将电流限制在导体表面的趋肤效应,甚至铜表面的微观粗糙度都会显著降低信号质量。IEEE 802.3dj任务组正在为1.6 Terabit以太网标准化每通道200 Gigabit接口,目标是在应用纠错后在媒体访问控制层达到万亿分之一的误码率。

  02  互连技术的选择与测试

  测试要求根据使用的互连技术类型有很大差异。直连铜缆(DAC)代表最简单的方法,使用无源双绞线缆,没有有源电子器件。这些线缆在较短长度下工作良好,但随着数据速率提高会面临基础物理限制。在224 Gigabit信号速度下,无源铜缆长度被限制在不到1米,基本上只能用于同一机架内相邻服务器之间的连接。测试这些线缆主要涉及使用矢量网络分析仪进行无源测量,表征插入损耗、阻抗失配导致的回波损耗,以及称为通道工作余量的计算指标,该指标预测参考发射器和接收器对能否成功通过线缆通信。

  有源电气线缆(AEC)已经成为在800 Gigabit和1.6 Terabit速度下延长铜缆传输距离的主要解决方案。这些线缆将复杂的重定时器或变速器芯片直接集成到连接器外壳中,实际上创建了微型收发器。Credo Technology Group、Marvell Technology和Astera Labs等公司提供驱动这些有源线缆的芯片。从测试角度看,这些有源线缆的行为更像光学收发器而非无源铜缆。重定时器芯片向主机系统呈现干净的再生信号,这意味着传统模拟测量变得毫无意义,因为有源芯片阻断了模拟信号路径。相反,测试集中在使用专用误码率测试仪和示波器进行误码率测量、眼图质量和时序裕量评估。

  线性可插拔光学模块(LPO)可能代表这一代最具颠覆性的架构变化。通过从光学模块中移除数字信号处理器,这些设计可以将功耗降低约50%,相比集成信号处理的传统模块。这种功耗节省在AI数据中心中变得非常关键,因为数千个高速连接可能消耗设施总功耗的20%以上。然而,线性光学模块彻底改变了测试范式,因为模块内部没有数字芯片来清理和再生信号。模块性能严格依赖于主机通道的质量和线性度,这意味着互操作性测试变得极为重要。测试设备供应商开发了具有可调符号间干扰的专用参考主机夹具,在制造验证期间模拟各种交换机板迹线。线性光学模块还需要新的测试指标,例如电气眼闭合四电平(EECQ),而不是用于带数字信号处理器模块的传统发射器和色散眼闭合四电平(TDECQ)。

  03  测试仪器的关键作用

  验证这些超高速互连需要跨越电气和光学测量领域的复杂仪器套件。误码率测试仪(BERT)是物理层验证的基础工具。这些仪器生成已知的伪随机比特序列,并将接收到的比特与预期模式进行比较,计算在给定时间段内发生多少错误。能够处理1.6 Terabit系统的现代测试仪必须生成120 Gbaud的PAM4信号,相当于每秒224 Gigabit。更关键的是,测试仪还必须注入特定的应力模式,包括正弦抖动、随机噪声和有界不相关抖动,以验证接收器的均衡算法能否正确适应实际通道损伤。

  在这些极端数据速率下,没有任何物理链路是完全无差错的。行业依赖复杂的前向纠错(FEC)算法在损坏的比特到达更高网络层之前检测并修复错误。这种对纠错的依赖意味着误码率测试仪必须执行工程师所称的FEC感知分析,不仅表征发生多少错误,还要表征这些错误在时间上如何分布。如果错误倾向于长时间突发而不是随机分散的单个比特,会压垮Reed-Solomon解码器的纠错能力,导致无法纠正的帧丢失。现代测试仪现在提供详细的错误突发长度直方图来验证充足的纠错余量。

  对于光学收发器,带有精密光接收器模块的数字采样示波器捕获来自激光发射器的实际波形。PAM4光发射器的主要质量指标称为发射器和色散眼闭合四电平(TDECQ),以分贝为单位量化参考接收器因发射器噪声、非线性和带宽限制而遭受的损耗。计算此指标需要模拟理想参考均衡器的复杂后处理算法。测试设备制造商提供采样示波器,为制造过程中的重复信号提供更高带宽和更低噪声;还提供实时示波器,对于在研发过程中捕获瞬态事件和调试非重复协议行为非常重要。

  时域反射仪(TDR)提供另一种关键测试能力,特别是对铜缆和印刷电路板。该技术向传输线发射快速电压阶跃,测量从阻抗不连续处反射回来的信号。生成的轨迹创建空间图,精确显示问题存在的位置,无论是压扁的线缆、连接器内部的焊点失效,还是磨损的接触垫。这种精确定位故障位置的能力使时域反射仪在客户退回缺陷产品时区分线缆故障和连接器故障方面具有不可替代的价值。

  04  晶圆级测试的演进

  随着行业向CPO发展,光子组件直接集成到处理器封装中,封装缺陷芯片的成本变得难以承受。这一现实推动测试从模块级向上游的晶圆级转移,创造了光学制造中最显著的技术前沿。这种转变促进了专门从事精密光学对准和组装的ficonTEC公司(已被Robotechnik收购:300757.SZ)与在晶圆探测技术领域领先半导体行业的FormFactor公司(NASDAQ: FORM)之间的战略合作。

  传统半导体晶圆测试仪只能接触硅晶圆的顶表面,但先进的硅基光电子架构通常需要从上方进行电接触,同时光必须从下方或晶圆边缘耦合进入。解决方案是开发双面测试平台,可以同时接触300毫米晶圆的两侧。这些系统使用FormFactor的先进探针卡,配备专用金字塔或悬臂探针,与顶表面的调制器和光电探测器进行电接触,同时在开槽晶圆卡盘下方操作的精密六轴对准引擎定位光纤阵列,将光耦合到底表面的光栅耦合器中。

  光栅耦合器是将光垂直衍射出光电子集成芯片平面或进入平面的表面结构。虽然因为可以从晶圆上方或下方接触而更容易测试,但带宽有限且依赖光偏振。对于最高性能的1.6 Terabit应用,从芯片侧面水平引入光的边缘耦合提供更低损耗和更宽带宽。然而,在芯片仍是未切割晶圆一部分时测试边缘耦合器会带来几何挑战。FormFactor开发了专用的Pharos光学探针,使用3D打印的微透镜和反射镜将探测器的垂直运动重定向为芯片边缘的水平光耦合。这项创新允许在晶圆切割前完全测试边缘耦合光电子集成芯片,使制造商能够在投资昂贵封装步骤之前识别并丢弃缺陷芯片。

  这些晶圆级测试平台与Teradyne公司(NASDAQ: TER)的自动化测试设备集成,将大规模并行电测试能力与精密光学对准同步。由此产生的生产单元每小时可以测试数百个光子芯片,将硅基光电子测试从缓慢的实验室过程转变为真正的大批量制造操作。随着光学器件在CPO配置中更接近处理器,这种能力变得不可或缺,如果无法经济地测试和保证良好芯片,整个架构在经济上将不可行。

  05  产品生命周期中的测试策略

  测试策略在产品生命周期中从初始设计到批量生产再到现场支持显著演变。在设计验证和鉴定(DV)期间,工程师必须证明设计满足已发布标准的每个细节。这个阶段涉及全面的边角测试,器件在零下40摄氏度到正85摄氏度的温度极端条件下,标称值正负5%的电压极限,以及最坏情况信号损伤下进行压力测试。关键测试包括抖动容限(JTOL)测量来验证接收器可以处理多少时序变化,跨所有信号通道的完整TDECQ分析,以及与Broadcom(NASDAQ: AVGO)或NVIDIA等主要制造商的交换机芯片进行互操作性验证。

  一旦设计进入批量制造阶段,重点转向最大化吞吐量和良率,同时最小化每单位测试成本。制造商采用并行策略,使用可以同时验证4、8或16个模块的多通道测试设备。制造线不是在每个生产单元上运行耗时的抖动容限测试,而是使用TDECQ和平均光功率等优化指标,这些指标与整体性能相关性好但测量速度快得多。对于有源电气线缆,环回模式允许验证重定时器芯片功能正常,而无需生成完整的复杂流量模式。专门为生产环境提供高密度、低成本测试仪器的公司如MultiLane(私营公司)改变了高端实验室设备在制造环境中的传统主导地位。

  理解互连在现场为何失效可以持续改进设计和制造。连接器退化代表最常见的失效模式之一。模块桨板上的电接触垫镀有硬金,但反复插拔循环会磨损镀层,导致氧化和高接触电阻,表现为间歇性链路故障或误码率升高。线缆端接焊接不良会产生阻抗不连续,时域反射仪可以精确定位。在光学模块中,激光二极管随时间逐渐退化,需要增加驱动电流以维持光功率,直到控制环路最终达到极限。通过模块管理接口监控该偏置电流可实现预测性维护策略。对于线性可插拔光学模块,出现独特的失效模式,即模块可能满足所有单独规范,但安装在特定交换机中时失效,因为该交换机的发射器均衡无法补偿主机迹线和模块模拟路径的组合损耗。这不是组件失效,而是只能通过全面互操作性测试才能捕获的系统裕量失效。

  06  测试生态系统的参与者

  向1.6 Terabit速度的转变创造了充满活力的测试设备和组件供应商生态系统。Keysight Technologies(NYSE: KEYS)在研发和合规测试领域占据市场领先地位。Infiniium UXR系列示波器达到110 GHz带宽,M8000系列误码率测试仪是验证224 Gigabit硅片和1.6 Terabit物理层性能的黄金标准。Keysight深度参与标准组织意味着通常在标准正式批准之前就定义测试方法,为其提供显著竞争优势。

  Anritsu(6754.T / OTC: AITZY)提供制造效率和信号完整性能力的强大组合。MP1900A模块化误码率测试仪平台广泛部署用于PCIe 6.0和以太网物理层测试。独特的MP2110A"BERTWave"仪器将误码率测试仪与采样示波器组合在单个机箱中,使其成为光收发器制造线的行业标准。

  MultiLane作为高价值的颠覆者,专注于超大规模供应链,提供成本效益高、高密度的测试解决方案。在测试交换机端口所必需的环回模块市场中占据主导地位,并为生产环境提供灵活的误码率测试仪和时域反射仪。

  EXFO(已私有化)是光传输和协议测试的领导者。BA-1600比特分析仪专门针对1.6 Terabit转变,在电误码率测试和协议流量分析之间架起桥梁。FTBx系列在现场便携式测试设备领域占据主导地位。

  Viavi Solutions(NASDAQ: VIAV)以ONT-800平台闻名,这是协议验证和互操作性测试的行业参考,设备用于压力测试800G和1.6T以太网设计的逻辑和流量处理能力。

  Tektronix(Fortive的子公司:NYSE: FTV)是示波器领域的历史领导者,提供CSA/DSA系列高带宽采样示波器,这些对于光学制造中的TDECQ测量非常关键。

  Wilder Technologies(私营公司)是高性能测试夹具和分线板(合规测试夹具)的专业供应商,用于将模块(OSFP、QSFP-DD)物理连接到测试设备。

  ficonTEC在光电子集成芯片的自动化Assembly和测试方面无与伦比。提供物理构建和测试收发器内部光学引擎的机械设备。

  FormFactor(NASDAQ: FORM)是半导体晶圆探测的领导者。与ficonTEC的合作以及收购FRT Metrology(后被Camtek收购:NASDAQ: CAMT,业务单元已出售)巩固了其作为硅基光电子晶圆级质量守门人的地位。

  在互连制造方面,Coherent Corp.(NYSE: COHR,前身为II-VI)是光收发器市场的巨头,是Google(NASDAQ: GOOGL)、Amazon(NASDAQ: AMZN)和Microsoft(NASDAQ: MSFT)等超大规模运营商的800G模块(DR8、2xFR4)主要供应商。

  InnoLight(中际旭创:300308.SZ)是全球最大的数据中心光收发器供应商。以新速度(800G/1.6T)快速上市而闻名,是NVIDIA的主要供应商。

  Eoptolink Technology(300502.SZ)是快速增长的收发器制造商,深度参与LPO和面向西方超大规模运营商的800G供应。

  Accelink Technologies(002281.SZ)是主要的中国光学组件和模块制造商,拥有广泛的电信和数据通信产品组合。

  Source Photonics(被东山精密收购:002384.SZ)是光收发器的关键参与者,在激光芯片制造(IDM模式)方面特别强大。

  Hisense Broadband(私营公司)是主要的收发器供应商,在光纤到户(PON)领域特别占据主导地位,并越来越多地进入数据通信收发器市场。

  Applied Optoelectronics(NASDAQ: AAOI)是光纤网络产品的垂直整合供应商,专注于CATV和数据中心收发器。

  Credo Technology Group(NASDAQ: CRDO)是有源电气线缆连接的领导者。HiWire有源电气线缆是400G和800G机架内铜缆连接的实际标准。专有的SerDes和重定时器知识产权使其能够在原本会失效的细铜规格上实现稳健性能。

  NVIDIA(NASDAQ: NVDA)不仅是芯片公司,也是系统公司。LinkX是其合格互连(线缆和收发器)的品牌。虽然物理产品由合作伙伴制造(如Coherent、Amphenol或Fabrinet:NYSE: FN),但经过在NVIDIA交换机和GPU上的详尽验证。

  Marvell Technology(NASDAQ: MRVL)是光学模块和有源电气线缆内部使用的数字信号处理器芯片的主要供应商。Spica和Ara数字信号处理器系列是世界上相当一部分800G和1.6T模块内部的"大脑"。

  Broadcom(NASDAQ: AVGO)是交换机硅片(Tomahawk/Jericho)的市场领导者,也是光学数字信号处理器和组件的主要供应商(通过Avago传承)。

  Astera Labs(NASDAQ: ALAB)是PCIe重定时器的关键参与者,并越来越多地进入AI集群的有源线缆(AEC)市场。

  Lessengers(私营公司)是用于光耦合的聚合物线键合技术的创新者,与POET Technologies(NASDAQ: POET)等公司合作。

  07  最新标准进展与测试要求

  随着行业转向1.6T,标准组织和多源协议(MSA)加快了发布时间表。本节详细介绍2024-2025年影响测试策略的关键更新。

  OIF正在最终确定224G的"Linear"项目。该规范定义了1.6T LPO的电气通道要求。关键测试更新是关注TP1(发射)和TP4(接收)互操作性点,确保线性模块贡献最小的噪声和非线性。2024年底启动的新项目EEI-224G-RTLR(重定时发射线性接收)创建了混合测试场景。发射侧(主机到模块)是重定时的(数字信号处理器),允许更长距离和更宽松的主机规范,而接收侧(模块到主机)保持线性以节省功率。来自Keysight和Anritsu等供应商的测试设备现在必须支持非对称均衡测试。

  展望1.6T之外,OIF已正式启动每通道448 Gbps信号传输的框架。这可能需要来自Tektronix或Keysight的60 GHz以上带宽示波器,以及能够处理亚毫米波频率的新测试夹具。

  IEEE 802.3dj任务组针对2025年200 Gbps/通道信号传输的坚实基线,预计最终标准将在2026年发布。当前草案强调第178条款(200G/通道AUI)。测试供应商正在积极参与"Plugfests",以验证其误码率测试仪可以生成802.3dj合规性所需的复杂预编码和错误特征。

  计划于2025年12月在Keysight的Santa Clara园区举行的以太网联盟2025高速网络Plugfest是行业首个针对每通道200 Gbps SerDes的重大互操作性测试。参与者将测试200GbE、400GbE、800GbE和1.6TbE系统。这包括验证OSFP-XD和QSFP-DD1600互连。主要目标是证明不同供应商的224G SerDes可以链接并维持稳定的FEC余量。

  通用管理接口规范(CMIS)控制主机与模块的通信方式。版本5.3引入了必须通过协议分析仪(例如MultiLane Nexus或Introspect Technology:私营公司)验证的关键更改。关键测试包括OutputStatus标志,CMIS 5.3要求支持OutputStatusRx和OutputStatusTx标志。测试需要触发状态更改(例如信号丢失)并验证模块在指定时间窗口(通常小于10毫秒)内更新这些标志。还需要验证特定状态下的VDM(多功能诊断监控)标志行为(ModuleReady与ModuleLowPwr)。现在需要严格验证Bank Select和Page Select事务的时序,以防止大型交换机机箱中的总线锁定。

  QSFP-DD 800和QSFP-DD1600(硬件修订版7.0)的热测试规范明确定义了耗散高达30W(或1600可能达到40W)的模块的Type 2A和2B散热器要求。来自MultiLane或Wilder Technologies的制造测试夹具(MCB)必须包括能够稳定这些高负载的主动冷却,以防止校准期间模块限流。对于QSFP-DD1600,连接器必须通过高达60 GHz的严格串扰(NEXT/FEXT)限制。时域反射测试必须验证即使在50次以上插入循环后,桨板金手指的阻抗仍保持在100欧姆正负10%。

  OSFP-XD(eXtra Dense)这种新外形在略大的外壳中容纳16个通道。机械测试的关键是盲插对准。连接器密度需要笼中精确的浮动。测试涉及机器人在极端角度插入以验证不会发生引脚损坏。电气测试方面,16通道100G(总计1.6T)或200G(总计3.2T)时,串扰是致命因素。合规测试需要为所有"侵略者"通道通电,同时测量"受害者"通道上的误码率。热测试方面,OSFP模块配有集成散热器。测试需要"风洞"夹具,验证模块的热阻(R_th)在特定气流(CFM)速率下与MSA曲线匹配。

  与重定时模块不同,LPO模块没有单独的标准"光输出眼"规范。在系统内进行测试。LPO MSA定义了具有特定损耗和均衡能力的"参考主机"。为通过制造测试,LPO模块必须证明可以与该参考主机一起工作,误码率小于1e-6(FEC前)。EECQ(电气眼闭合四电平)指标取代了电气接口的TDECQ。测量通过线性链传输后模块电气输出处的眼闭合。

  08  技术演进的方向

  1.6 Terabit时代不仅仅是速度升级,而是由人工智能带宽需求驱动的数据中心物理层架构重塑。无源铜缆在112G/224G速度下超过1米的距离已经失效。铜缆的未来属于由Credo和Marvell驱动的有源线缆(AEC)。AI集群中的功耗限制正在迫使从光学器件中移除数字信号处理器。这将测试负担从模块供应商转移到系统集成商(NVIDIA、Arista、Cisco),为MultiLane和Keysight的复杂互操作性测试设备和参考通道创造了新市场。

  随着光学器件进入封装(CPO)以支持下一代GPU,失效成本变得太高,无法等待最终封装测试。ficonTEC和FormFactor开创的自动化双面晶圆探测解决方案不仅"有用",而且是CPO路线图的关键推动因素。

  对于这个生态系统中的投资者、工程师和利益相关者来说,在1.6T这一代取得成功需要对链路有整体的看法。电气信号完整性、光物理、封装工程和系统验证之间的界限已经不可逆转地模糊,需要新一代集成测试解决方案来确保数字世界继续扩展。

  参考文献

  [1] Phabian, "Inside the Testing Ecosystem Behind 800G and 1.6T Interconnects," Fabian's Substack, Dec. 9, 2025. [Online]. Available: https://iamfabian.substack.com/p/inside-the-testing-ecosystem-behind

内容来自:逍遥科技
本文地址:http://www.iccsz.com//Site/CN/News/2025/12/11/20251211030701293127.htm 转载请保留文章出处
关键字:
文章标题:800G与1.6T光互连的测试生态系统
1、凡本网注明“来源:讯石光通讯网”及标有原创的所有作品,版权均属于讯石光通讯网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、免责声明,凡本网注明“来源:XXX(非讯石光通讯网)”的作品,均为转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。因可能存在第三方转载无法确定原网地址,若作品内容、版权争议和其它问题,请联系本网,将第一时间删除。
联系方式:讯石光通讯网新闻中心 电话:0755-82960080-168   Right