用户名: 密码: 验证码:

LC:人工智能集群对光学的特殊要求

摘要:IPEC近期举行了主题为“AI集群中光学的特殊要求”的网络研讨会。LightCounting分享了研讨会上各位演讲嘉宾关于该话题的观点。

  ICC讯  国际光电委员会(IPEC)继续推动人工智能(AI)集群新一代光互连的行业讨论。近期(2024年7月30日),IPEC举行了主题为“AI集群中光学的特殊要求”(Special requirements for optics in AI Clusters)的网络研讨会。该活动包括8个演讲,吸引了400多名与会者,持续了整整3个小时,有超过30多位观众提问。

  Andy Bechtolsheim以对GPU性能的预测拉开了活动的序幕。如下图所示,随着CMOS、基板/封装方法、芯片架构和冷却技术的进步,预计从2022年到2028年,这一数字将增加100倍。

  Andy的时间表非常激进(和往常一样)。所有这些新技术可能需要十年时间才能投入批量生产。关于英伟达/台积电用于封装Blackwell GPU的新CoWoS技术存在问题的最新传言表明,将新技术转化为大规模生产是多么具有挑战性。

  管理这些非常大的芯片组件的散热是许多问题之一。在人工智能集群中使用的所有技术都必须有一个提高能效的路线图。CMOS确实有5年内从5nm到3nm和2nm的路线图,但光互连仍在寻找更高功率效率的路径。

  Andy介绍了当前设计的重定时、LRO和LPO 1.6T(8x200G)收发器的功耗估算,如下图所示。重定时(DSP)模块消耗30W,是800G模块的2倍多。LPO和/或LRO确实为更高的功率效率提供了一条途径,但目前尚不清楚它们是否以每通道200G的速度工作。Andy评论说,使用干净的电气通道224G LPO可以工作,但它还需要Flyover线缆、高性能TIA和线性驱动器。

  Andy还提到,112G LPO MSA的标准即将完成,应在9月ECOC之前发布。互操作性Plug-fest将于8月举行,到2025年,几家供应商将准备批量交付LPO。

  问题是:是否有客户准备部署LRO或LPO?

  字节跳动是认真考虑8x100G LPO的潜在客户之一。根据LightCounting的估计,到2024年,字节跳动将是中国云计算公司中第二大光模块消费者,并有可能在2025年排名第一。

  字节跳动的Yinxing Zhang给出了大量的LPO测试结果,证明了1E-6规格的Pre-FEC BER测试有助于保证链路在全温度范围内的性能。FEC将为通过Pre-FEC BER测试的收发器性能增加余量。他还评论说,需要优化VCSEL和收发器/AOC设计,以提高Pre-FEC BER测试的良率,但他对2025-2026年的8x100G LPO部署持乐观态度。字节跳动并不急于转向每通道200G的速度,至少现在还没有。

  LightCounting预计英伟达将在今年晚些时候测试每通道200G的LRO和LPO,并可能在2025年部署有限的数量。如果这些都不起作用,CPO将是英伟达可以依赖的另一种选择。英伟达也在放弃基于VCSEL的SR8收发器,但字节跳动和许多其他客户将在未来许多年内部署这些收发器。

  博通的Manish Mehta讨论了CPO的进展,并介绍了与云晖合作开发的SR8 LRO收发器的最新测试数据,如下所示。他还讨论了用于人工智能应用的SMF双向收发器的设计。该技术已在FTTx收发器中使用了20多年。Manish还回顾了博通(Avago/Agilent)30年来收发器制造的历史,其中包括10万亿(是的,这是万亿!)个现场装置时(Device hours),可靠性记录<1FIT。

  Meta的Drew Alduino展示了硬件故障如何减慢AI集群运行的数据。单个GPU故障或网络链路故障会使整个集群的效率降低40%。缓解故障(通过软件)最多可能需要10分钟。这样的故障平均每30-45分钟发生一次。对于基于更复杂的GPU和光学的大型集群,这个问题会变得更糟。

  他还分享了200G FR4和400G FR4模块的收发器故障分析数据,如下所示。直接调制激光器衰减是200G模块故障的主要原因。与一般的制造问题(PCBA和引线键合)相比,400G收发器中使用的EML性能下降的问题较小。他建议使用更简单和更集成的设计将有助于减少这些故障。从这个角度来看,LPO和CPO都是行业探索的正确方向。不仅可以降低功耗,还可以提高可靠性。

  华为的Eric Bernier也讨论了提高可靠性的方法。除了优化整个收发器或集成芯片的光电设计和提高光源效率外,基于激光阵列的更高功率光源也将有所帮助。如果一个激光器性能下降,阵列中的其他激光器可以产生更多的功率,以补偿故障的激光器。

  其他演讲者包括Quintescent的Cris Cole,他提供了关于硅基量子点激光器可靠性提高100倍的更多数据。英特尔的Christian Urricariet分享了关于异质集成激光器极高可靠性(<0.1FIT)的数据。Ranovus的Jeff Hutchins认为,只有高度集成的CPO解决方案才能满足AI集群的可靠性要求。

  原文内容请参考:https://www.lightcounting.com/resource/53/resourceFile/081324%20Research%20Note%20on%20IPEC%20webinar.pdf

内容来自:讯石光通讯网
本文地址:http://www.iccsz.com//Site/CN/News/2024/08/14/20240814013534698445.htm 转载请保留文章出处
关键字:
文章标题:LC:人工智能集群对光学的特殊要求
1、凡本网注明“来源:讯石光通讯网”及标有原创的所有作品,版权均属于讯石光通讯网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、免责声明,凡本网注明“来源:XXX(非讯石光通讯网)”的作品,均为转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。因可能存在第三方转载无法确定原网地址,若作品内容、版权争议和其它问题,请联系本网,将第一时间删除。
联系方式:讯石光通讯网新闻中心 电话:0755-82960080-168   Right