用户名: 密码: 验证码:

OCP24:AI时代需要光学技术同行

摘要:Cignal AI讨论了在OCP24峰会上的光学技术进展,包括CPO、400G/通道、AI节点中的光学可靠性和稳定性、LPO、液冷改变架构等。

  ICC  2024年10月15日至17日,开放计算项目全球峰会2024(简称OCP24)在美国加州圣何塞举行。OCP是一个专注于计算的展会,在过去几年里,由于人工智能的发展,该展会的重要性得到了极大的提升。在OCP24上,尽管多数参会者聚焦于AI架构、功率、液冷及软件的讨论,但有一个座无虚席的会议,专门探讨网络和光学技术对于当前及未来AI节点扩展性的重要意义。Meta强调,目前仍不清楚如何在不增加更多GPU的情况下从大型AI模型中获得更准确的结果(因为更高的准确性意味着需要更多的参数,而更多的参数则需要更多的GPU资源),这意味着数据中心对光学带宽的需求不会停止。

  今年,首次有两家光学供应商光迅和Ciena在展会上设有展位。随着CIOE和ECOC刚刚落幕,而且OCP并不是传统的光学展览,因此并没有任何主要的光学公告。不过,这里有关于数据中心内部光学技术未来的有趣讨论,而OCP可能是听取初创公司关于AI光学有趣想法的最佳场所。

  本文中涵盖的主题包括:

  共封装光学(CPO)离现实更近了一步

  Ciena推出400G/通道 —— 出乎意料

  AI节点中的光学可靠性和稳定性需提升

  LPO——持续发展,但问题依然存在

  液冷将改变架构设计

  结论

  共封装光学(CPO)离现实更近了一步

  近几年来,CPO几乎一直由Intel和Broadcom通过51.2T交换机演示进行独家推广。去年的OCP会议上,Micas Networks首次推出了基于Broadcom CPO平台的商用交换机。今年,Micas依然是唯一商用的CPO交换机厂商,但许多其他公司在他们的演讲中也开始提及CPO。

  最近,台积电(TSMC)宣布正在研究在其工艺流程中集成SiPho,而超大规模企业也发表了令人鼓舞的声明,CPO似乎比以往任何时候都更接近现实——可能在不到五年的时间内就能实现大规模部署。然而,CPO的采用仍然是有些二元化的——要么会被一个主要客户认可用于大规模部署,从而引发大量需求,要么它仍将是一种少数较小运营商采用的小众产品。目前这个关键的主要客户尚未出现,但鉴于AI是一个核心应用场景,Nvidia和超大规模企业的ASICs很可能是早期采用者。

  CPO所宣传的主要好处仍然是功耗(声称每800GbE小于5.5W),但它还提供了稳定性和更低的延迟。AI模型中困扰光学连接的偶然错误(flapping)随着链路中DSP的减少而降低,这可能以牺牲一致性为代价,换取了链路稳定性以及较低的误码率(BER)。对于短距离链接,这种权衡可能是值得的。字节跳动在展览会上分享了早期试验的结果,表明第二层网络的延迟最高可减少600纳秒,第三层网络的延迟最高可减少1000纳秒(不过,字节跳动并未解释第三层网络为何会有更显著的延迟改善)。

  Micas继续开发其CPO平台,目前为51.2T,但计划在Tomahawk 6可用时升级到102.4T。这意味着Broadcom将开发一个102.4T的CPO板卡。今年Micas已经出货了几十台交换机,主要用于评估,并预计到2025年最多也只能出货几百台,因为寻找主要客户的工作仍在继续。腾讯仍然是一个潜在的客户(Micas雇佣了一名来自该公司的高级工程师),但在短期内不会大量采购。

  Broadcom与字节跳动共同展示了CPO,后者展示了一个潜在的网络部署方案,其中CPO交换机作为顶级脊柱层,未来将转移到核心层,直接进入网络的主要交换基础设施。服务提供商正在试用一个商用平台的定制版本,据推测是Micas,因为它拥有目前唯一的商用平台。字节跳动表示还没有承诺购买和部署,并且仍在评估这项技术。

  Broadcom与字节跳动共同展示了CPO技术,展示了一种将CPO交换机作为Top Spine层,并在未来过渡到核心层的潜在网络部署方案,这将使CPO直接成为网络主交换基础设施的一部分。服务提供商正在测试商用平台的定制版本,据推测该平台为Micas的产品,因为目前它是唯一可用的商用平台。字节跳动表示,他们尚未决定购买和部署,并且仍在评估这项技术。

  Meta表示,他们正在研究将CPO应用于“Scale up域”(即目前使用铜缆连接的机架内部)。随着这一领域扩展到单个机架之外并且需要光学技术时,CPO可能成为一个可行的选择。Meta相信,由于减少了活动组件的数量,CPO可以提供一个更可靠的网络,减少链路故障的发生。值得一提的是,Meta曾是CPO/NPO技术的早期倡导者之一,但在后来停止了内部开发。

  Ciena推出400G/通道 —— 出乎意料

  正如Cignal AI在其最新的ECOC 2024报告中所述,400G/通道电子和光学器件被认为即将公开亮相。实际情况比预期的更早到来。在OCP上,Ciena展示了利用其WaveLogic 6e相干DSP中的SERDES实现的400G/通道PAM4操作。这不是像Marvell或Broadcom这样的传统DSP供应商,而是Ciena首先在3nm硅片上公开演示了400Gbps的操作。Ciena的演示应被视为一个测试芯片,而该公司正考虑为其多个组件,包括一个400Gbps/通道的PAM4 DSP,制定未来的商业化计划。

  在光学方面,Hyperlight关于薄膜铌酸锂(TFLN)的演讲表明,该材料有足够的带宽来支持400G/通道的光学器件。Hyperlight还提到,在过去两年中,TFLN晶圆制造商的数量已经从一家增加到了三家。硅光子学(SiPho)几乎肯定不能在400G/通道条件下工作,即使是InP EMLs也可能面临性能问题。尽管TFLN在大规模生产中尚未得到验证,但它仍然是2028年后实现400Gbps/通道3.2GbE的一个强有力候选者。

  AI节点中的光学可靠性和稳定性需提升

  在Cignal AI的CIOE报告(CIOE24:洞察中国市场)中,该市场调研公司首次提到了光学器件中的bit error和flapping导致AI模型失败的问题,这个问题在这次OCP上被多次提及。AI模型中的链路错误可能会导致整个计算周期失败,并需要从检查点重新启动。然而,光学方面的消息比最初报道的要乐观:

  Meta展示了其模型数据,显示GPU的故障率远远高于光学链路。在初步数据中,约80%的模型故障是硬件问题造成的,其中60%是由于GPU故障。网络问题是导致故障的第四大因素——虽然这并不理想,但情况并不像最初认为的那样严重。

  Meta还指出,400GbE模块的故障大多是因为制造问题,而非激光器故障(200GbE模块的故障主要是由于DML,但400GbE使用了更为可靠的EML)。制造问题相比基本的半导体可靠性问题应该更容易解决。

  此外,Meta表示,所有硬件——无论是光学器件还是ASIC——的故障率随时间逐渐下降,这表明存在一些尚未确定的早期失效原因。同样,这应该是一个比可靠性故障更容易解决的问题。

  旭创展示的数据表明,基于硅光子学(SiPho)的光学器件的可靠性有了显著提高。这家公司已经售出了数百万个可插拔模块,其现有产品的FIT率低于0.4,这对于1.6Gbps速率下的低成本SiPho光学器件而言是个积极的信号。

  LPO——持续发展,但问题依然存在

  线性可插拔光学(LPO)继续在各类展览会上受到关注,特别是在Arista的Andy Bechtolsheim出席的场合。然而,目前还没有大型客户正式采用这项技术。即便互操作性问题得到了解决,故障排查和管理方面的问题仍然存在。因此,尽管业内对这项技术的讨论持续不断,但Cignal AI的预测(800GbE市场中不足10%的份额)自一年前《线性驱动市场机会》(The Linear Drive Market Opportunity)报告发布以来,一直未发生变化。

  在一个光学专题的演讲中,Meta表示LPO正处于“积极研究”阶段,但从LPO在OFC23上引起关注到现在已接近两年,研究尚未转化为实际部署。Meta还报告称,排查光学链路固有的困难很大;据报告,因故障退回的模块中有75%被诊断为未发现问题(NTF),这意味着光学器件并非错误来源。由于LPO进一步减少了用于链路评估的遥测数据,问题可能会变得更复杂,尽管链路中的活动组件减少可能会提高整体可靠性。

  或许对LPO的最大激励来自Chris Cole的观点(Cignal AI也有同样的看法),即对于当前的AI运营者而言,部署速度远比在光学器件上节省一点能耗重要得多——因此,基于DSP的光学器件(MOP)仍将是首选架构。

  1.6T可能会为LPO——或者说更有可能是LRO——提供机会,因为目前还没有既定的MOP。OCP24上的演讲者承认,200G/通道的LPO更具挑战性,这意味着其部署并不确定。

  液冷将改变架构设计

  下一代AI设施将需要液冷技术,因为单个机架的散热需求将超过100千瓦。在展会上,可以看到许多液冷供应商及其演示。正如Cignal AI在ECOC报告中讨论的,液冷技术将会改变设备的设计。Credo展示液冷技术也将使得电气连接(如铜线/AEC)更加普及。随着液冷技术的应用,AI节点的密度增加,GPU之间的距离变短,从而使得铜连接可以用于更多的地方。一旦不再依赖风冷,设备和网络设计肯定会经历重大变革。

  结论

  虽然OCP不是一个专门的光学展会,但它展示了未来几年由AI推动的光学需求和发展趋势。虽然铜线在AI节点内部还将长期使用,但随着速度提升和集群范围扩大,光学技术变得不可或缺。光学带宽需求不断增加,同时由于AI模型参数持续增长,功耗问题仍然突出。尽管许多光学互联的创新可能不会被广泛采纳,但它们有望挑战行业对光学互联的看法。这是一个属于AI的时代,光学技术也被邀请一同前行。

  原文:OCP24: Optical Gets Invited to the AI Party - Cignal AI- https://cignal.ai/2024/10/ocp24-optical-gets-invited-to-the-ai-party/

内容来自:讯石光通讯网
本文地址:http://www.iccsz.com//Site/CN/News/2024/10/25/20241025034012385394.htm 转载请保留文章出处
关键字:
文章标题:OCP24:AI时代需要光学技术同行
1、凡本网注明“来源:讯石光通讯网”及标有原创的所有作品,版权均属于讯石光通讯网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、免责声明,凡本网注明“来源:XXX(非讯石光通讯网)”的作品,均为转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。因可能存在第三方转载无法确定原网地址,若作品内容、版权争议和其它问题,请联系本网,将第一时间删除。
联系方式:讯石光通讯网新闻中心 电话:0755-82960080-168   Right