ICC讯 随着人工智能重新定义计算格局,网络已成为塑造未来数据中心的关键支柱。大语言模型训练性能不仅取决于计算资源,更取决于底层网络的敏捷性、容量与智能水平。业界正在见证从传统以CPU为核心的基础设施,向紧密耦合、GPU驱动、网络定义的AI工厂(AI数据中心)的演进。
NVIDIA(英伟达)构建了全面的网络解决方案组合,以满足大规模现代AI训练与推理所需的突发高带宽、低延迟需求——包括Spectrum-X以太网平台、NVIDIA Quantum InfiniBand及BlueFieldDPU平台。通过协同计算与通信,NVIDIA网络产品为可扩展、高效且具备韧性的AI数据中心奠定基础,使网络成为赋能未来AI创新的中枢神经系统。
本文将探讨NVIDIA网络技术如何通过共封装光学(CPO)创新,为大规模AI数据中心实现能效与韧性的大幅提升。
AI数据中心基础设施与传统企业数据中心有何不同?
在传统企业数据中心中,一层交换机集成在每个服务器机架内,通过铜缆直接连接服务器,最大限度地降低了功耗和组件复杂度。这种架构足以满足以CPU为核心、网络需求适中的工作负载。
相比之下,NVIDIA开创的现代AI数据中心采用超密集计算机架和数千个GPU协同处理单一任务。这些设备需要跨整个数据中心实现最大带宽和最低延迟,因此催生了新的拓扑结构——将一层交换机重新部署到机柜行末端。这种配置显著增加了服务器与交换机之间的距离,使得光通信网络成为必需。因此,功耗和光组件数量显著增加,现在网卡到交换机以及交换机之间的连接都需要光模块支持。
如图1所示,这种演进反映了为满足大规模AI工作负载对高带宽和低延迟要求所需的拓扑结构和技术重大转变,从根本上重塑了数据中心的物理形态和能耗特征。
图1. 横向扩展(Scale-out)和AI密集度依赖于光互连
如何优化AI数据中心的网络可靠性与能效?
采用可插拔光模块的传统网络交换机依赖多个电气接口。在此类架构中,数据信号需经过漫长路径:从交换芯片到印刷电路板,通过连接器传输至外部光模块,最终才转换为光信号。如图2所示,这种分段式传输会导致显著的电信号损耗——200Gbps通道的损耗高达22dB。这迫使系统需要采用复杂的数字信号处理(DSP)和多个有源组件进行补偿。
图2. Spectrum-X光子技术实现64倍信号完整性提升
由此带来的是更高功耗(每个接口通常达30瓦)、增加的发热量以及更多潜在故障点。大量独立模块和连接不仅推高系统功耗与组件数量,更直接削弱链路可靠性,为规模化部署的人工智能系统带来持续运维挑战。图3展示了各组件的典型功耗情况。
图3. Spectrum-X光子技术实现3.5倍能效提升
相比之下,采用共封装光学(CPO)技术的交换机将电光转换模块直接集成在交换机封装内。光纤直接连接位于交换芯片旁的光引擎,将电信号损耗降至约4分贝,功耗最低可控制在9W。通过简化信号路径并消除冗余接口,这种设计显著提升了信号完整性、可靠性和能效。这正是高密度、高性能AI数据中心所需的理想解决方案。
共封装光学(CPO)技术为AI数据中心带来什么?
为满足人工智能数据中心前所未有的需求,英伟达设计了基于共封装光学(CPO)的系统。全新推出的NVIDIA Quantum-X光子学平台和Spectrum-X光子学平台(见图4)将光学引擎直接集成到交换芯片上,以此取代传统的可插拔光模块。这些创新方案通过简化信号路径,显著提升性能、能效与可靠性。这些突破不仅创造了带宽和端口密度的新纪录,更从本质上改变了人工智能数据中心的经济效益与物理设计格局。
图4. 采用集成式共封装硅光引擎的NVIDIA光子交换芯片
Quantum-X光子技术如何定义下一代InfiniBand网络
随着NVIDIA Quantum-X InfiniBand光子平台的推出,英伟达将InfiniBand交换技术推向新高度。该平台具备:
· 115Tb/s交换容量,支持144个800Gb/s端口
· 采用第四代NVIDIA可扩展分层聚合与缩减协议(SHARP)技术,提供14.4TFLOPS的网络内计算能力
· 液冷散热实现卓越的热管理效能
· 专用InfiniBand管理端口确保强大的带内控制与监控功能
NVIDIA Quantum-X通过集成硅光技术实现无与伦比的带宽、超低延迟及运行韧性。共封装光学设计降低功耗、提升可靠性、支持快速部署,并能满足代理式AI工作负载的大规模互联需求。
Spectrum-X光子技术如何助力大规模以太网AI数据中心
将CPO革命延伸至以太网领域,NVIDIA Spectrum-X光子交换机专为生成式AI和大规模LLM训练及推理任务设计。新一代Spectrum-X光子解决方案包含两款基于Spectrum-6芯片的液冷机箱:
· Spectrum SN6810:提供102.4Tb/s,配备128个800Gb/s端口
· Spectrum SN6800:实现409.6Tb/s,配备512个800Gb/s超高密度端口
两大平台均采用NVIDIA硅光技术,大幅减少离散组件与电气接口数量。相比传统架构实现3.5倍能效提升,并通过减少潜在故障光组件数量将可靠性提高10倍。技术人员可获得更便捷的维护体验,AI运营商则享受加速1.3倍的设备上线速度与更优的首令牌生成时间。
英伟达共封装光学技术由强大的合作伙伴生态系统支撑。这种跨行业协作不仅确保技术性能,更为全球大规模AI基础设施部署提供了所需的制造扩展性与可靠性。
共封装光学(CPO)如何实现性能、能效与可靠性的三重突破
共封装光学技术的优势显而易见:
· 3.5倍能效提升:通过消除可插拔光模块并将光学器件直接集成至交换芯片封装,即使在网络密度激增的情况下,单端口功耗仍大幅下降
· 10倍可靠性增强:减少离散有源组件数量并移除易故障的光模块,显著提升运行时间与操作可靠性
· 1.3倍部署加速:简化的组装与维护流程转化为AI数据中心的快速部署与弹性扩展
这些交换系统实现业界领先的带宽性能(最高409.6Tb/s,支持512个800Gb/s端口),并全部采用高效液冷技术应对高密度、高功耗环境。图5所示分别为:NVIDIA Quantum-X Photonics Q3450交换机(115Tb/s),以及单芯片架构的Spectrum-X SN6810(102.4Tb/s)与四芯片架构集成光纤调配器的Spectrum-X SN6800(409.6Tb/s)光子交换平台。
这些产品共同推动网络架构变革,满足AI工作负载对带宽和超低延迟的极致需求。尖端光学组件与强大系统集成伙伴的结合,创造了适应当前及未来扩展需求的优化网络架构。随着超大规模数据中心对快速部署和坚如磐石的可靠性要求日益提升,CPO正从技术创新转变为必然选择。
图5. NVIDIA Quantum-X与Spectrum-X光子交换平台
如何开启代理式AI新时代
NVIDIA Quantum-X与Spectrum-X光子交换机标志着网络架构向AI规模化需求的专业化转型。通过消除传统电气与可插拔架构的瓶颈,这些共封装光学系统提供了现代AI数据中心所需的性能、能效与可靠性。随着NVIDIA Quantum-X InfiniBand交换机计划于2026年初商用、Spectrum-X以太网交换机于2026下半年上市,英伟达正在为代理式AI时代的优化网络设立新标准。
敬请关注本文章系列第二篇,我们将深入解析这些突破性平台的内部架构,揭秘支撑NVIDIA Quantum-X与Spectrum-X光子技术的硅光引擎核心技术——从芯片级集成创新到新型调制方案,下一期将全面剖析这些光子引擎在AI网络领域脱颖而出的技术奥秘。
作者:Ashkan Seyedi, Nvidia市场产品总监