用户名: 密码: 验证码:

美团高级工程师张璋:解析数据中心演进影响 光模块独立运维日益重要

摘要:随着数据中心网络架构和光模块正在向400G架构演进,光模块立运维的重要性日益提高。美团数据中心注重AIOPS和光模块运维,利用机器学习分析告警阈值,对网络、设备、光模块、光传输等更多精细特征指标异常发现及在线趋势预测,并做数据故障分析,结合业内数据、大数据分析及专家经验和知识图谱,分析光模块异常趋势。

  ICC讯(编辑:Aiur) 近年来,全球互联网流量持续剧增,推动数据中心规模数量的增长,同时面对网络海量的数据传输,数据中心网络架构演进和容量升级势在必行。为了获得更好的成本效益,数据中心运营商还需要在运维机制方面进行大量的研究分析,不断探索一个合适的性能、稳定性和成本方案,光通信器件独立运维管理的重要性与日俱增。

  5月29日,讯石信息咨询举办的线上研讨会—“探讨后疫情时代新基建下的光通信发展机遇”,美团点评高级网络工程师,数据中心专家张璋发表《数据中心演进发展对光通信器件模块的影响》线上报告,介绍了网络演进对光模块的影响,以及站在大型数据中心的角度看待光模块运维管理。

  网络演进对光模块的影响

  张璋介绍,诸如AI、AR/VR和物联网等新兴应用的出现,让互联网数据流量呈现出爆发式增长,数据中心网络架构和容量等也面临更苛刻的挑战。业界正将多平面CLOS网络架构逐步发展为数据中心网络的架构主流,传统10G网络也正向25G网络演进。美团数据中心网络架构演进总体为四代,即MT-NET 1.0-4.0。2018年以前是MT-NET 1.0和2.0网络架构,其接入形式为铜缆,互联带宽为10G-40G,服务器接入带宽为1G或10G。2018-2020年,美团采用第三代的MT-NET 3.0,接入形式换成AOC,互联带宽达到100G,服务器接入带宽为25G。

  众所周知,数据中心网络演进周期比电信和接入领域更短,美团数据中心也正向第四代(MT-NET 4.0),其接入形式将是AOC和DAC混用,DAC的占比会更大,互联带宽面向400G,服务器接入带宽将选择100G/200G。张璋认为,随着网络架构升级,传统框式交换机正逐步被盒式交换机替代,在同一数据中心内部场景中,多平面CLOS架构(131072只光模块)相比10G网络(2016只光模块),光模块数量增长了65倍。

  成本敏感的数据中心面对庞大的模块数量时必须使成本进一步降低,交换机和光模块逐步解耦将是趋势,让模块厂商直接向数据中心客户出货。当然,这种做法会提高数据中心运维难度,以常用的100G SR4/CWDM4和LR4为例,当故障发生时,网络厂商和模块厂商会存在问题界定不清的现象,如果缺少有效的统一管理模式,模块批次问题将难以发现。因此,多类型多厂商模块管理将是数据中心演进过程的重点课题。

  大型数据中心的光模块管理

  随着400G/800G样品出现或逐步出货,预计到2021年,400G网络架构将逐步商用,光模块市场规模也将在2023年达到120亿美元以上,新类型光模块的在密度、功耗、性能和稳定上面临更高要求,未来光模块将是运维管理中的重要一环。那美团光模块运维管理是怎么做?据张璋介绍,美团中心自主研发一套光模块生命周期管理,分为六大部分,即光模块POC、灰度测试、线上信息采集、异常光模块预测、自愈系统和数据运营。

  一、光模块POC,其分为四个阶段,第一阶段要建立POC协同群,满足快速沟通应答,厂商准备产品组建,配合后续测试第二阶段以厂商环境测试为主,涉及温巡、压测等环节;第三阶段要做整体工作分析总结,输出测试结果;第四阶段是美团自测,在自有测试环境中现场比对,并据实统计。

  二、灰度测试,指将光模块放在一个测试POD内,待测模块不超过总量的八分之一,测试模块类型字段、序列号、生产日期、诊断日期、厂商字段、编码字段以及光纤类型字段,还有Telemtry测试,包括温度、电流、电压、收光功率和发光功率。

  三、线上信息采集,从设备层下沉至光模块,利用SSH和Telemtry将光模块基本信息采集至数据库。由于模块标准众多,以及解耦带来的光模块独立运维,光模块单独信息采集尤为重要。

  四、光模块监控,美团从单点监控转变为一组收发(本端和对端)观察,美团为每台交换机构建“端口邻居”数据库,查看本端光模块收发信息时,可以同步展示对端光模块信息。

  五、光模块异常预测与自愈,美团光模块故障场景归纳为三种:端口闪断,秒级恢复;端口反复抖动;端口异常down。端口反复抖动是常规监控手段难以发现,美团专门为其探索一种光模块预测方式,通过对交换机日志和光模块数据进行分析,预判哪些端口模块会出现异常,从而防患于未然。

  张璋进一步介绍,IEEE802.3ba-2010中制定了100G以太网物理层接口规范,并定义了本端故障/远端故障(Local Fault/Remote Fault,简称LF/RF)。当RS层发出LF/RF告警时,对应的物理层将会出现异常,交换机可以上报相应log日志,相应的光模块就有可能处于亚健康状态,所以交换机上报的LF/RF日志可以作为光模块异常信号。

  六、光模块故障数据分析,自愈系统与预测系统结合,可以在第一时间自动切掉流量,极大降低端口持续故障影响业务的可能性。对故障模块原因和故障模块类型进行分析,可以发现发光器异常占了70%,CMDM4类型模块占比最大超过了50%,所以需要在下一个POC阶段对CWDM4模块的发光器件进行重点测试。通过对100G光模块的故障管理,我们可以发现发光器件属于易损部件,在后续400G迭代中需要重点关注。

  张璋最后表示,随着数据中心网络架构和光模块正在向400G架构演进,美团数据中心后续将注重AIOPS和光模块运维,利用机器学习分析告警阈值,对网络、设备、光模块、光传输等更多精细特征指标异常发现及在线趋势预测,并做数据故障分析,结合业内数据、大数据分析及专家经验和知识图谱,分析光模块异常趋势。

【加入收藏夹】  【推荐给好友】 
免责声明:凡本网注明“讯石光通讯咨询网”的所有作品,版权均属于光通讯咨询网,未经本网授权不得转载、摘编或利用其它方式使用上述作品。 已经本网授权使用作品的,应在授权范围内使用,反上述声明者,本网将追究其相关法律责任。
※我们诚邀媒体同行合作! 联系方式:讯石光通讯咨询网新闻中心 电话:0755-82960080-168   Right