数据中心网络正在快速发展,而随着AI的兴起与AI集群的大规模部署,这一发展势头进一步加速。近期,该领域进展显著,英伟达DGX SuperPOD架构与谷歌TPU集群的部署尤为引人注目。这种转变源于对支持AI训练和推理任务的高性能计算的需求。预计在未来五年内,仅英伟达一家公司每年就将出货数百万台专为AI优化的GPU单元,到2028年将形成极大的规模。
构建这些网络所需的收发器单元数量将达到每年数千万台量级,且这些设备需要运行在1.6Tbps、3.2Tbps等最高速率水平。根据行业分析师的预测,未来每个加速器(GPU)将配备10个以上的收发器,这意味着相较于当前部署水平,光纤连接需求将增加约10倍。
在典型的数据中心中,一个标准的可插拔以太网收发器消耗约20瓦电力。预计下一代收发器的能耗将几乎翻倍。根据目前的出货量估算,2024年用于驱动收发器的电力部署约为200兆瓦(MW)。根据收发器的发展轨迹以及预期将增长10倍的光连接需求,收发器的电力部署预计将增至每年2吉瓦(GW),相当于一坐大型核电站的发电量。这其中不包括驱动主机端电子设备、电重定时器所需的电力,用于将数据从集成电路传输到设备前端的收发器。
以一座配备一百万块GPU的AI数据中心为例,引入CPO技术可为该数据中心节省约150兆瓦的发电容量需求。除了减少建设相应发电设施所需的投资成本外,这项技术还能显著降低运营成本——根据地区能源价格差异,每年节省的电费开支有望轻松突破1亿欧元。而在中国,随着‘东数西算’工程推进,超算中心(如无锡神威·太湖之光)、智算中心(如北京、深圳AI算力集群)对高带宽、低功耗光互连的需求激增,CPO技术有望成为国产GPU降耗增效的关键。面对这种不可持续的能耗发展趋势,创新变得至关重要。
CPO技术的引入
CPO是短期内最有可能突破上述能耗瓶颈的技术。这项技术将电光转换模块的位置从前面板的收发器转移到设备内部,最理想的情况下直接集成到CPU或GPU的封装基板上。这样可以最大限度地降低铜通道上的电力损耗,从而形成更高能效的链路,与可插拔收发器相比,功耗可降低50%以上,在某些情况下甚至高达75%。其节能优势不仅体现在减少高损耗铜通道的使用,还通过简化甚至省去用于补偿电信号传输损耗的数字信号处理器(DSP)来实现。这项技术带来的次级效应是改善延迟情况,因为通过CPO模块传输的信号实现无误通信所需的预处理和后处理步骤大大减少。总地来说,CPO技术能提供高速、低功耗和低延迟的光连接。这些特性正是先进AI网络的关键所在。
另一种值得关注的节能替代方案是线性驱动可插拔光模块(LPO),它通过去除DSP芯片,在保持前面板可插拔收发器形态与生态系统的同时,降低了功耗和延迟。虽然CPO能够提供更好的信号完整性和更低的延迟,但LPO方案更具性价比,尤其适合短距离应用场景。LPO的高性价比和低功耗优势,加之快速上市准备能力,可能会延缓CPO技术的大规模普及。不过,当链路速率提升至200G或更高水平时,LPO相较CPO会消耗更多电力,且在确保高信号质量方面的管理难度显著增加,预计随着技术的不断进步,CPO将成为未来的首选解决方案。
玻璃为CPO技术赋能
玻璃有望在下一代CPO技术中发挥重要作用。为了使电光转换器(主要是硅光芯片)尽可能靠近实际使用的硅处理器(CPU和GPU),我们还需要一种新型封装技术,这种技术不仅支持较大的基板尺寸,还要能够与硅光芯片实现光连接。
按照传统,半导体封装主要采用有机基板。这类材料的热膨胀系数高于硅,因而限制了半导体封装的最大尺寸。随着业界不断推动在现有有机技术平台上采用更大尺寸的封装基板,可靠性问题(如焊点完整性问题、分层风险加剧)以及制造端难题(如高质量细间距互连结构和高密度布线)日益突出,导致封装和测试成本持续攀升,而通过优化设计,玻璃可以实现与硅芯片更为匹配的热膨胀系数,相比之下优于传统的有机基板。这种经特殊加工的玻璃基板因此展现出卓越的热稳定性,在温度波动时能够降低机械应力和损坏风险。其优异的机械强度和平整度为芯片封装可靠性提供了坚实保障。此外,玻璃基板能够支持更高的互连密度和更细间距的互连,从而提升电气性能并减少寄生效应。这些特性使得玻璃成为先进半导体封装领域高度可靠且精准的选择。因此,半导体封装行业正在大力发展先进玻璃基板技术,将其打造为下一代基板技术。
玻璃波导基板
除了优异的热学性质和机械性能外,玻璃还能通过特殊处理实现光波导功能。玻璃中的光波导通常通过名为离子交换的工艺来实现:使用盐溶液中的不同离子替换玻璃中的离子,由此改变玻璃的折射率。通过将光限制在折射率更高的区域内,改性区域可对光进行引导。这项技术能够精确调节波导特性,使其适用于多种光学应用场景。因此,在类似光纤结构的光波导中,光可以沿着集成玻璃波导传播,并高效耦合进入光纤或硅光子芯片。这使得玻璃成为先进CPO应用中极具吸引力的材料选择。
在同一基板上集成电气与光学互连,还有助于解决企业在构建大型AI集群时遇到的互连密度难题。目前,光通道数量受到光纤几何构造的限制——常规光纤包层直径为127微米,约人类发丝粗细。而玻璃波导机构能够实现更密集排布,相较直接光纤到芯片的连接方式,这种波导技术可以显著提升输入/输出(I/O)密度。
电气和光学互连的集成不仅解决了密度问题,还提升了AI集群的整体性能和可扩展性。借助玻璃波导的紧凑特性,可以在相同的物理空间内容纳更多的光通道,进而增强系统的数据传输容量与效率。这项进步对于推动下一代AI基础设施建设至关重要——在AI系统需要处理海量数据的应用场景下,高密度互连技术是实现高效管理的关键。
通过集成玻璃波导,可以在同一基板上构建完整的光学系统,使光子集成电路能够直接通过光波导进行通信。这一过程无需借助光纤互连,可显著提升芯片间通信带宽和覆盖范围。在具有众多互连组件的高密度系统中,相较于离散光纤,使用玻璃光波导可以实现更低的信号损耗、更高的带宽密度以及更高的耐用性。这些优势使得玻璃波导成为高性能光学互连系统的理想选择。
在下一代数据中心和AI超级计算机网络中应用CPO技术,可提升芯片逃逸带宽,为实现102T及以上高速、高基数交换机开辟更多可能。网络架构师们正迎来重新构思与设计网络架构的独特机遇。得益于带宽的增加和网络架构的简化,他们将能够实现更优的网络性能表现,从而推动运营效率提升与流程优化。
写在最后
CPO技术有望从多个层面彻底改变AI的互连架构。它能够显著降低能耗并提升可持续性,使AI系统更加环保且更具成本效益。此外,CPO可提升AI系统效率和可扩展性,使系统能够轻松处理规模更大、复杂度更高的任务。通过解决密度问题,CPO可提升数据传输速率,确保AI组件间实现更快、更可靠的通信。这也有助于减少未来AI系统中出现的瓶颈问题,确保更顺畅、更高效的系统运行。
未来的AI互连有望引入直接光链路技术,从而省去计算交换机环节。这项创新将拓宽AI任务的带宽,提升大型数据集的处理速度和效率。玻璃因其卓越的数据传输能力和可扩展性,成为实现这些技术进步的理想材料。基于玻璃的光链路将成为下一代AI系统的关键支撑,为高性能计算和先进AI应用构建不可或缺的基础设施体系。
作者:Andreas Matiss 康宁光通信光学元件与集成高级经理