康宁光通信：面向人工智能的光纤连接技术

讯石光通讯网发布时间:2024/6/17 16:09:47 编者:iccsz

摘要：人工智能在理解我们的问题方面取得了重大进展，我们将见证其持续演变。在实现这一转变的过程中，寻求能够支持大规模GPU集群(无论是16K还是24KGPU)的布线解决方案是难题的重要组成部分，也是光通信行业正在迎接的一项挑战。

提到人工智能(AI)时，您的脑海中会浮现什么?对于我而言，这一切始于去年11月，我的一位老友在领英(LinkedIn)上发了一篇帖子，表达他对ChatGPT的印象有多深刻。然而当我也注册了OpenAI账号后，真正让我着迷的是ChatGPT能够像人类一样提供答案，这些答案既符合语境，又具有技术上的合理性。

当然，它的局限性也比较明显，那就好似我在跟一个聪明但有点迟钝的人类朋友互动。它会以要点形式给出回答，并不断提醒我，它其实是一个人工智能模型。它督促我对它的回答保持一丝怀疑。在我看来，最吸引人的是屏幕输出答案的方式——每个字母和词都缓慢地出现，如同连接在另一端的人在打字输入一样。

六个月时光飞逝。如今，当我在ChatGPT上输入一个问题时，它的反应快得让我有点不知所措。在过去的六个月时间里，究竟发生了什么?ChatGPT的开发者们做了哪些更新调整?

最有可能的情况是，OpenAI扩展了其人工智能集群的推理能力，从而满足超过1亿用户的需求。据报道，在人工智能芯片制造商中处于领先地位的英伟达(NVIDIA)已供应大约20000颗图形处理器(GPU)，用于支持ChatGPT的开发，并且有大幅增加图形处理单元使用的计划。据推测，即将推出的人工智能模型可能需要多达1000万个图形处理单元。

GPU集群架构——生成式人工智能的基础

现在，让我们退一步想想。对我而言，努力去理解20000颗GPU的概念并非难事，但是，通过1000万颗GPU的光连接来执行智能任务的想法很有挑战性。

经过数小时的互联网搜索，我偶然发现各种设计指南，其中详细介绍如何构建高性能网络，以提供人工智能工作负载所需的高速连接。

在这里我想探讨一下，如何通过最初配置较小的设置，然后将其逐渐扩大至包含数千颗GPU，从而创建GPU集群。我们将以英伟达设计指南为例，这些指南源于高性能计算(HPC)网络的传统。

根据英伟达在该组设计指南中的建议，此过程涉及使用多个具有256颗GPU的pod的较小单元(可扩展单元)来构建大量GPU集群。每个pod包括8个计算机架和2个位于一排中间位置的网络机架。这些pod内部及pod之间的连接通过InfiniBand(一种高速、低时延的交换协议)建立的，采用的是英伟达的Quantum-2交换机。

当前的InfiniBand交换机利用800G OSFP端口，采用下一代数据速率为400G(NDR)的双工端口。在该配置中，每个端口使用8根光纤，因而每台交换机使用64x400G端口。下一代交换机，无论其名称如何，将采用极限数据速率(XDR)。这意味着，每台交换机使用64x800G端口，每个端口也使用8根光纤——主要是单模光纤。该4通道(8光纤)模式似乎是InfiniBand路线图中反复出现的图示(如下表所示)，而未来将使用更快的速度。

*在4X(4通道)以Gb/s为单位表示链路速度

就布线方法而言，在高性能计算(HPC)领域，普遍采用的最佳做法需要采用点对点有源光缆(AOC)。这些光缆在光纤收发器之间建立牢固的连接，一根光缆连接两台光纤收发器。

但是，随着带有多芯光纤连接器(MPO)接口的最新800G NDR端口的面世，点对点连接的情形已从AOC光缆转变为MPO-MPO无源跳线。在考虑单个具有256个GPU的pod时，利用点对点连接没有什么大问题。我个人的做法是选择MPO跳线，以简化装置。

大规模运行

到目前为止，进展仍然相对顺利，但是在追求更大的规模时(例如实现16k GPU将需要将64个具有256颗GPU的pod互连起来)，挑战就会出现，这是因为这些高性能GPU集群使用的计算结构具有线路优化特性。在线路优化设置中，来自各个计算系统的全部主机通道适配器(HCA)均连接至同一个叶交换机(leaf switch)。

据说，该设置对于在多任务(multi-job)环境中最大限度提高深度学习(DL)训练性能至关重要。一个标准的H100计算节点配备4x双端口QSFP，转换为8个上行链路端口(每个GPU一个独立上行链路)与8个不同的叶交换机连接，由此建立一个8条线路优化结构。

在处理单个具有256颗GPU的pod时，该设计的工作可实现无缝衔接。但是，如果目标是构建一个包含16384颗GPU的结构，该怎么办?在这种场景中，我们有必要增加两个交换层。来自每个pod的第一个叶交换机与脊组一(SG1)中的每个交换机连接，每个pod内的第二个叶交换机与脊组二(SG2)中的每个交换机连接，以此类推。为取得完全实现的胖树(fat-tree)拓扑结构，则须加入第三层核心交换组(CG)。

让我们再次回顾一套搭载16384颗 GPU集群的一些数据。在计算节点和叶交换机(每个pod有8个叶交换机)之间建立连接时需要16384根光缆，意味着每个pod有256根MPO跳线。在我们开始网络拓展的过程时，建立叶-脊连接和脊-核心连接的任务变得更具有挑战性。这涉及首先捆扎多根点对点MPO跳线，然后将其敷设跨越50米至500米不等的距离。

有没有更高效的运作方式?建议之一是采用结构化布线系统，该系统采用两个接线板设计，利用大芯数MPO干线，可能采用144根光纤。这样，我们就能把18根MPO跳线(18x8=144)合并成一根Base-8干线光缆。合并后的光缆可以一次性敷设和连通数据中心场地。通过在端点使用适合8光纤连接的接线板和MPO适配器面板，我们可将其拆开并连接至我们的优化线路架构。该方法无需捆绑许多MPO跳线。

为说明这一点，让我们考虑以下场景：对于一个非阻塞结构，每个pod需要256条上行链路。我们可选择自每个pod拉出15x144根光纤干线，生成15x18=270上行链路。值得注意的是，这只需使用15个电缆护套即可实现。另外，该设置提供270-256=14个备用连接，这些备用连接可作为备份，或者甚至用于存储或管理网络连接。

最终，人工智能在理解我们的问题方面取得了重大进展，我们将见证其持续演变。在实现这一转变的过程中，寻求能够支持大规模GPU集群(无论是16K还是24KGPU)的布线解决方案是难题的重要组成部分，也是光通信行业正在迎接的一项挑战。

作者：Mustafa Keskin 康宁光通信公司应用解决方案经理

内容来自：讯石光通讯网
本文地址：http://www.iccsz.com//Site/CN/News/2024/06/17/20240617081740691788.htm 转载请保留文章出处
关键字:
文章标题:康宁光通信：面向人工智能的光纤连接技术

1、凡本网注明“来源：讯石光通讯网”及标有原创的所有作品，版权均属于讯石光通讯网。未经允许禁止转载、摘编及镜像，违者必究。对于经过授权可以转载我方内容的单位，也必须保持转载文章、图像、音视频的完整性，并完整标注作者信息和本站来源。
2、免责声明，凡本网注明“来源：XXX（非讯石光通讯网）”的作品，均为转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。因可能存在第三方转载无法确定原网地址，若作品内容、版权争议和其它问题，请联系本网，将第一时间删除。
联系方式：讯石光通讯网新闻中心　电话：0755-82960080-168 Right

康宁光通信：面向人工智能的光纤连接技术

相关新闻