用户名: 密码: 验证码:

2024芯•光论坛 | 分论坛一《AI大模型下短距光互联技术》圆满举办

摘要:5月15日,由华为海思光电主办,ICC讯石承办的“2024芯•光论坛:芯光耀智算 互联畅未来”会议在武汉光谷皇冠假日酒店圆满举办。5月15日下午分论坛一《AI大模型下短距光互联技术》围绕AI领域的短距光互联需求变化、技术演进和学术研究热点等进行了讨论,来自中国信通院、京东、腾讯、快手、锐捷网络、华为海思光电、华中科技大学和北京理工大学的行业专家及学术大咖进行了深度的分析与探讨。

  ICC  2024年5月14-15日,由华为海思光电主办,ICC讯石承办的“2024芯•光论坛:芯光耀智算 互联畅未来”会议在武汉光谷皇冠假日酒店圆满举办。本次大会汇聚了近500位光电子领域专业人士,共同探讨光电技术的演进趋势,捕捉全球光电子产业的发展态势。

  其中,5月15日下午分论坛一《AI大模型下短距光互联技术》围绕AI领域的短距光互联需求变化、技术演进和学术研究热点等进行讨论,探讨了短距光互联的未来。来自中国信通院、京东、腾讯、快手、锐捷网络、华为海思光电、华中科技大学和北京理工大学的行业专家及学术大咖进行了深度的分析与探讨。

赵文玉 中国信息通信研究院技术与标准所副所长

  中国信息通信研究院技术与标准研究所副所长赵文玉发表了主题为《AI时代短距光互联发展态势探讨》的演讲。AI催生了海量的算力需求,互联的瓶颈问题也随即突出。单一的计算设备已经无法满足算力需求,分布式架构需要通过多个GPU节点并行训练,但不同节点之间需频繁同步模型参数,网络通信性能成为制约系统性能的关健瓶颈。同时,Al与光互联双向赋能,短距光互联也在持续加速演进。

  赵文玉提到,随着数据中心、AI大模型等创新业务与应用的蓬勃发展,驱动短距光互联持续向高速率、低能耗、低时延、高集成等方向发展。在产业化方面,800G已批量部署,1.6T尚处于技术攻关和产业应用研究阶段,而3.2T因其对低能耗方案需求更强,还处在探索阶段。另外在低能耗/低时延方面,LPO成为关注热点,1.6T LPO样品已经出现。在高集成方面,硅光在材料体系中占比提升,薄膜铌酸锂热度上升,III-V集成与异质集成技术持续发展。

  赵文玉还提到IPEC也在持续推动高速光互联技术及标准化工作,并取得了阶段性成果。建议产学研各单位聚焦Al+算力基础设施等高质量发展需求,持续推动高速光互联技术产业创新,支撑我国新质生产力发展!

陈琤 京东网络架构师

  京东科技信息技术有限公司网络架构师陈琤发表了主题为《高性能计算网络中的光互连》的演讲。

  陈琤提到,智算网络光互连正在往高可扩展性、大带宽、低成本、低功耗、低延时方向发展。关于GPU内部连接,连接问题不突出,可实现超高带宽;而GPU出口现有方案采用PCIe连接,是计算节点间互联的带宽瓶颈,并行多路光引擎OIO方案是未来的方向。GPU的时延来自两个方面——协议时延+数据链路。同时还提到,现如今硅光有了很好的介入点,AI是硅光光模块发展的黄金时期,LPO方案在兼容互通方面还有很长的路要走。

  总结而言,相较于传统数通网络,智算网络带宽的增长更迅速。而低成本互联非常有赖于新技术。不同的模型对延时的要求不一样,优化的方向也有所区别。

胡胜磊 腾讯光系统架构师

  腾讯控股有限公司光系统架构师胡胜磊发表了主题为《算力网络中的光互联技术趋势探讨》的演讲。

  胡胜磊提到,光互联的“春风”正在吹来,由于AIGC业务的兴起,光互联已成为数据中心网络硬件主角。现阶段光模块供不应求,光互联技术送代加速,光互联已站在“风口”。同时硅光的重要性也凸显了,可插拔批量占比攀升,CPO上无可取代;112G/224G有源铜缆(ACC)可支持单柜算力规模扩展。LRO的革新则需要支持互联可插拔持续演进到224G。此外,异构互通也不可避免,端口问题感知明显,协同度需要提升。

  最后,胡胜磊还提到一些发散思考:如光芯片考虑集成有利于诊断的功能;选择弱FEC,提升BER性能,实现降低网络延迟;相比传统MZ,DFB-RING集成芯片可行性;可插拔形态演进到OSFP-XD的16lane后,更多lane通道的封装“单排16,双排32”如何考虑布局等。

曹世伟 北京快手光网络架构师

  北京快手科技有限公司光网络架构师曹世伟发表了主题为《All in AI时代光互联技术的应用探讨》的演讲。

  曹世伟提到,大模型分布式训练对网络架构设计提出了更高的要求,传统的电交换方案在成本、能耗、时延等方面存在诸多挑战,基于OCS的光电混合组网方案成为业界关注的焦点。

  曹世伟还提到,随着大模型训练对算力需求的增长,GPU集群也再朝着更大规模方向演进。由于单DC的规模受供电等诸多因素的限制,因此通过跨AZ、Region的多集群联合训练也将成为必然。IPoDWDM相比于传统方案,其跨机房链路的转换减少50%,同时节省了电层设备,在时延、功耗、成本方面收益明显。

  最后总结提到,AI训练对网络的诉求:超大规馍超高带宽、超低时延、超高稳定性;而基于大矩阵OCS的混合光电组网可以扩大GPU集群规模、提升交付效率,小矩阵OCS可以实现交换机保护,实现网络故障的快速自动恢复;单集群建设规模受限,未来会期待更多集群联合训练模式演进;距离更短、频谱效率高、低成本的IPoDWDM方案更具优势;城域全光网及全自研的管控平台助力实现更高效、更稳定、更智能化的机房互联。

苏展 锐捷网络光系统工程师

  锐捷网络股份有限公司光系统工程师苏展发表了主题为 《AI场景短距和超短距光互连发展趋势分析和展望》的演讲。

  苏展开篇介绍了业内通用短/中/长距光互联的情况,即随波特率送代升级:单模相干方案下沉挤压单模IMDD方案;单模IMDD方案下沉挤压多模VCSEL短距互联应用;多模VCSEL光方案下沉挤压电缆超短距互联应用;从而总结出光方案下沉的整体趋势,并详细分析了光电互联边界。

  接下来,苏展提到AI系统对光互联提出低成本、低功耗、低延时、高可靠性和高密度几大需求背景下,短距光互联的几大挑战:多模产业链滞后效应、多模近封装系统可靠性、单模共封装方案面板密度;而且在光电联合设计的章节中提到,LPO投入产出比随速率演进下降问题和多模及单模WDM的LPO随速率演进传输距离压缩问题,最后得出线性架构未来向板内发展的趋势性结论。

  最后,苏展介绍了224G VCSEL Linear 10m超短距传输提案和与硅光CPO配合的直通可插拔AOC提案。

侯康 华为海思光电资深产品规划经理

  华为海思光电资深产品规划经理侯康发表了主题为《AI场景光互联技术方案选择与挑战》的演讲。

  侯康提到,随着AI蓬勃发展,算力网络中的高速互联成为提升算力的关键,而超大规模计算集群互联即是AI算力提升的重要方向,也是提升系统集群算力的关键一环。同时还提到算力需求引领光互联迈向Beyond 400G时代,国内以400G为主,800G主要需求来自海外;1.6T还只是在预热。另外“更高更快更多通道”是光模块实现大带宽的关键技术路径,在低功耗、低时延上,LPO具备相对优势,但持续演进仍有待讨论。

董建绩 华中科技大学教授

  华中科技大学教授董建绩发表了主题为《光电计算芯片与人工智能应用》的演讲。

  董老师提到,随着人工智能技术的飞速发展和广泛应用,光计算和光子集成技术、人工智能技术相结合有望解决传统电学计算无法解决的难题,产生颠覆性和变革性技术和应用。董老师从学术界角度聚焦讨论可重构光子神经网络芯片,可重构MZI光学矩阵运算、可重构片上衍射神经网络、可重构微环阵列光学矩阵运算等三类典型的计算架构,及其在人工智能领域的应用。最后董老师提到光计算的核心是算力、能耗、精度、集成度、非线性等。

胡善亭 北京理工大学副研究员

  北京理工大学副研究员胡善亭发表了主题为《面向算力网络Tbit光互连技术的超高速直接调制VCSEL研究》的演讲。

  胡老师提到研究下一代Tbit光互连技术,对我国构筑高品质算力网络全光底座、促进数字经济和智能社会的持续发展具有重要意义。而超高速直接调制VCSEL技术,是实现低成本、高能效、大容量光互连的重要解决方案,既是国内外光电子领域的研究热点,也是我国亟待攻克的关键卡脖子技术之一。胡老师主要分析了VCSEL因其固有的优势,在数通领域大放光彩的过往。并介绍了课题组在VCSEL调制带宽及能耗方面取得的研究结果。

观众提问

分论坛1现场

  总 结

  AI大规模集群带来更多的光互连需求,面对下一代短距光互联技术,高性能、低时延、大容量和高密度已成为行业关注的共识。此外,AI训练和推理对集群存在差异化需求,催化新的基础设施建设,光互联将迎来长期增长机遇。

1、凡本网注明“来源:讯石光通讯网”及标有原创的所有作品,版权均属于讯石光通讯网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、免责声明,凡本网注明“来源:XXX(非讯石光通讯网)”的作品,均为转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。因可能存在第三方转载无法确定原网地址,若作品内容、版权争议和其它问题,请联系本网,将第一时间删除。
联系方式:讯石光通讯网新闻中心 电话:0755-82960080-168   Right