用户名: 密码: 验证码:

康宁光通信:面向人工智能的光纤连接技术

摘要:人工智能在理解我们的问题方面取得了重大进展,我们将见证其持续演变。在实现这一转变的过程中,寻求能够支持大规模GPU集群(无论是16K还是24KGPU)的布线解决方案是难题的重要组成部分,也是光通信行业正在迎接的一项挑战。

  提到人工智能(AI)时,您的脑海中会浮现什么?对于我而言,这一切始于去年11月,我的一位老友在领英(LinkedIn)上发了一篇帖子,表达他对ChatGPT的印象有多深刻。然而当我也注册了OpenAI账号后,真正让我着迷的是ChatGPT能够像人类一样提供答案,这些答案既符合语境,又具有技术上的合理性。

  当然,它的局限性也比较明显,那就好似我在跟一个聪明但有点迟钝的人类朋友互动。它会以要点形式给出回答,并不断提醒我,它其实是一个人工智能模型。它督促我对它的回答保持一丝怀疑。在我看来,最吸引人的是屏幕输出答案的方式——每个字母和词都缓慢地出现,如同连接在另一端的人在打字输入一样。

  六个月时光飞逝。如今,当我在ChatGPT上输入一个问题时,它的反应快得让我有点不知所措。在过去的六个月时间里,究竟发生了什么?ChatGPT的开发者们做了哪些更新调整?

  最有可能的情况是,OpenAI扩展了其人工智能集群的推理能力,从而满足超过1亿用户的需求。据报道,在人工智能芯片制造商中处于领先地位的英伟达(NVIDIA)已供应大约20000颗图形处理器(GPU),用于支持ChatGPT的开发,并且有大幅增加图形处理单元使用的计划。据推测,即将推出的人工智能模型可能需要多达1000万个图形处理单元。

  GPU集群架构——生成式人工智能的基础

  现在,让我们退一步想想。对我而言,努力去理解20000颗GPU的概念并非难事,但是,通过1000万颗GPU的光连接来执行智能任务的想法很有挑战性。

  经过数小时的互联网搜索,我偶然发现各种设计指南,其中详细介绍如何构建高性能网络,以提供人工智能工作负载所需的高速连接。

  在这里我想探讨一下,如何通过最初配置较小的设置,然后将其逐渐扩大至包含数千颗GPU,从而创建GPU集群。我们将以英伟达设计指南为例,这些指南源于高性能计算(HPC)网络的传统。

  根据英伟达在该组设计指南中的建议,此过程涉及使用多个具有256颗GPU的pod的较小单元(可扩展单元)来构建大量GPU集群。每个pod包括8个计算机架和2个位于一排中间位置的网络机架。这些pod内部及pod之间的连接通过InfiniBand(一种高速、低时延的交换协议)建立的,采用的是英伟达的Quantum-2交换机。

  当前的InfiniBand交换机利用800G OSFP端口,采用下一代数据速率为400G(NDR)的双工端口。在该配置中,每个端口使用8根光纤,因而每台交换机使用64x400G端口。下一代交换机,无论其名称如何,将采用极限数据速率(XDR)。这意味着,每台交换机使用64x800G端口,每个端口也使用8根光纤——主要是单模光纤。该4通道(8光纤)模式似乎是InfiniBand路线图中反复出现的图示(如下表所示),而未来将使用更快的速度。

*在4X(4通道)以Gb/s为单位表示链路速度

  就布线方法而言,在高性能计算(HPC)领域,普遍采用的最佳做法需要采用点对点有源光缆(AOC)。这些光缆在光纤收发器之间建立牢固的连接,一根光缆连接两台光纤收发器。

  但是,随着带有多芯光纤连接器(MPO)接口的最新800G NDR端口的面世,点对点连接的情形已从AOC光缆转变为MPO-MPO无源跳线。在考虑单个具有256个GPU的pod时,利用点对点连接没有什么大问题。我个人的做法是选择MPO跳线,以简化装置。

  大规模运行

  到目前为止,进展仍然相对顺利,但是在追求更大的规模时(例如实现16k GPU将需要将64个具有256颗GPU的pod互连起来),挑战就会出现,这是因为这些高性能GPU集群使用的计算结构具有线路优化特性。在线路优化设置中,来自各个计算系统的全部主机通道适配器(HCA)均连接至同一个叶交换机(leaf switch)。

  据说,该设置对于在多任务(multi-job)环境中最大限度提高深度学习(DL)训练性能至关重要。一个标准的H100计算节点配备4x双端口QSFP,转换为8个上行链路端口(每个GPU一个独立上行链路)与8个不同的叶交换机连接,由此建立一个8条线路优化结构。

  在处理单个具有256颗GPU的pod时,该设计的工作可实现无缝衔接。但是,如果目标是构建一个包含16384颗GPU的结构,该怎么办?在这种场景中,我们有必要增加两个交换层。来自每个pod的第一个叶交换机与脊组一(SG1)中的每个交换机连接,每个pod内的第二个叶交换机与脊组二(SG2)中的每个交换机连接,以此类推。为取得完全实现的胖树(fat-tree)拓扑结构,则须加入第三层核心交换组(CG)。

  让我们再次回顾一套搭载16384颗 GPU集群的一些数据。在计算节点和叶交换机(每个pod有8个叶交换机)之间建立连接时需要16384根光缆,意味着每个pod有256根MPO跳线。在我们开始网络拓展的过程时,建立叶-脊连接和脊-核心连接的任务变得更具有挑战性。这涉及首先捆扎多根点对点MPO跳线,然后将其敷设跨越50米至500米不等的距离。

  有没有更高效的运作方式?建议之一是采用结构化布线系统,该系统采用两个接线板设计,利用大芯数MPO干线,可能采用144根光纤。这样,我们就能把18根MPO跳线(18x8=144)合并成一根Base-8干线光缆。合并后的光缆可以一次性敷设和连通数据中心场地。通过在端点使用适合8光纤连接的接线板和MPO适配器面板,我们可将其拆开并连接至我们的优化线路架构。该方法无需捆绑许多MPO跳线。

  为说明这一点,让我们考虑以下场景:对于一个非阻塞结构,每个pod需要256条上行链路。我们可选择自每个pod拉出15x144根光纤干线,生成15x18=270上行链路。值得注意的是,这只需使用15个电缆护套即可实现。另外,该设置提供270-256=14个备用连接,这些备用连接可作为备份,或者甚至用于存储或管理网络连接。

  最终,人工智能在理解我们的问题方面取得了重大进展,我们将见证其持续演变。在实现这一转变的过程中,寻求能够支持大规模GPU集群(无论是16K还是24KGPU)的布线解决方案是难题的重要组成部分,也是光通信行业正在迎接的一项挑战。

  作者:Mustafa Keskin 康宁光通信公司应用解决方案经理

内容来自:讯石光通讯网
本文地址:http://www.iccsz.com//Site/CN/News/2024/06/17/20240617081740691788.htm 转载请保留文章出处
关键字:
文章标题:康宁光通信:面向人工智能的光纤连接技术
1、凡本网注明“来源:讯石光通讯网”及标有原创的所有作品,版权均属于讯石光通讯网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、免责声明,凡本网注明“来源:XXX(非讯石光通讯网)”的作品,均为转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。因可能存在第三方转载无法确定原网地址,若作品内容、版权争议和其它问题,请联系本网,将第一时间删除。
联系方式:讯石光通讯网新闻中心 电话:0755-82960080-168   Right