用户名: 密码: 验证码:

面向腾讯开放光网络系统的实时设备故障监测

摘要:腾讯开放光网络(TOOP)系统实时设备故障监测系统,依托于腾讯开放光网络系统秒级telemetry性能监控能力的海量运营数据,提升故障定位的准确性、查全度、时效性,提升光网络系统故障应对效率。

  腾讯开放光网络实现多厂商设备开放组网。通过不同厂商设备的自由组合与灵活替换,降低了带宽成本,提高了带宽交付效率。然而,多厂商、多型号设备的混合组网模式,也为传送网络的运营带来了新的挑战。在不同厂商设备混合组网的开放网络中,定位设备故障是一个复杂的问题。传统依赖厂商工程师的模式难以为继,需要系统具备快速诊断、定位设备故障的能力,能够在开放网络中,精确识别不同厂商设备的异常状态,定位故障点,准确分析故障影响,为设备故障处理等相关运营流程提供技术支撑。腾讯开放光网络基于多维度运行数据,利用智能算法,构建实时故障监测系统。实现对设备故障全面覆盖,故障定位准确率达到90%以上,故障查全率高达97%。

  1、设备故障定位的挑战


图一  传统光传输系统故障定位流程

  众所周知,根据墨菲定律,只要硬件有故障的几率,无论这个几率再小故障都会发生。更不用提在开放光网络中,各类业务板卡/光模块的数量在几k到数十k的级别,在这么大的设备基数面前,故障是很常见的。那么厂商工程师的排障逻辑是什么样的呢?一个最重要的信息来源就是告警。当设备产生告警或者业务受到影响时,值班人员会去询问厂商工程师进行确认故障具体点位,然后配合驻场来对故障设备进行更换。在这个处理流程中有几大痛点:

  告警多:每月与波分电层相关的告警数量极为庞大,已远远超出人力资源所能承受的范围。

  误报多:与每月设备上报海量告警相对的是,但实际发生的设备故障数量大概只有二十几例。

  信息指向不明确:板卡、模块告警无法与业务相关联,故障指示性差。

  2、自研实时故障监测系统设计


图二  实时故障监测系统流程

  为了解决上述痛点,我们构建了实时故障监测系统。它的核心部分是上图中的智能故障出单。开放光网络系统的精细化监控能力带来了秒级性能数据和告警的采集,这极大地将开放光网络透明化可视化,开放光网络中设备的各个维度的信息变得触手可及。通过将这些信息输入我们自研的数据挖掘和分析算法,故障事件单以及对应的处理建议将会自动且快速输出。这些故障事件单会以告警的形式接入运营监控平台,并自动触发工单,通知值班人员关注。值班同学根据故障告警的分析建议,指导驻场直接对故障设备做出相应的操作,如复位、拔插、更换等等。相对于传统的商用系统排障方式,腾讯自研实时故障监测系统的优势体现在如下几个方面:

  准确定位:故障定位的累积准确率在90%以上,出单的算法逻辑也一直针对具体的故障情况进行优化,避免误报。

  全面覆盖:故障定位的累积查全率在97%左右,可覆盖各种故障场景,避免绝大多数故障漏报。

  快速响应:相较于依赖工程师定位故障需要半天到天级的响应和沟通时间,实时故障监测系统可以做到分钟级告警上报,真正实现了全天候不间断监测。

  自适应指导:自研的故障监测系统通过回顾历史故障数据库,积累了大量的故障处理经验,可以根据故障点位和类型自适应生成设备维护建议,不仅定位准确,还能合理维护。

  3、核心故障出单逻辑设计


图三  智能故障出单层级结构图

  如上图,在实时故障监测系统中,一共有六种不同的设备/模块被纳入了监测对象。不同硬件在系统中完成功能不同,性能指标种类存在明显差异,运营过程中关注点也不同。因此需要根据每种板卡/模块的运行特征,具体为其设计故障分析逻辑。

  但是不同的故障分析逻辑,其本源是对性能、告警、状态等数据源产生数据的分析。因此,针对单一数据源的特征分析和针对多数据源的联合分析,作为基本分析方法,是故障检测系统,实现不同硬件故障分析逻辑的技术基础。其中涉及的一些技术要点会在下文给出简要介绍。

  技术要点一

  性能数据异常实时发现。上文提到,在开放光网络系统中,设备因秒级的性能数据采集和推送变得透明化和可视化。这也对实时性能处理和分析提出了更高的要求,采集窗口必须实时贴近故障事件的反应时间,监测算法必须保证低算法复杂度以配合实时故障发现的需求。为了应对这些需求,我们引入了时间序列自适应滑动窗口阶跃监测技术。

图四  自适应滑动窗口阶跃监测

  如图所示,我们将设备推送的秒级数据(例如模块发光频率,发光频偏,板卡温度等)收集到控制器端,然后对历史时间窗进行滑动监测。监测算法的思想是动态截取时间窗,并计算时间窗在当前时刻的统计值,这个统计值和数据的波动情况正相关。换言之,异常性能数据时间窗内经过统计分析会计算得到一个较高值。该值与统计所得阈值做比较,低于阈值则为正常范围波动,高出阈值则被判定为故障态。算法中的各项具体数值(例如阈值、标准差)都是经过对历史故障数据的详细分析后得出的,使故障态识别更加精确。另外,性能数据的偶然波动(单个采集窗口的数据异常,可能是设备误报导致)导致的信号突变也会在该算法中进行排除。通过这种滑动窗口阶跃监测技术,20s内的窗口异常波动都可以有效检出,且占用资源低,可以实时对控制器管控的海量设备同时监控。在性能监测方面,除了自适应滑动窗口阶跃监测之外,还有发光平坦度监测、电源实时转化率分析、风扇转速与设备功耗数据关联度分析等手段,可根据设备的特性进行应用。

  技术要点二

  多维度信息综合分析提升根因定位准确性。虽然上述的性能数据是可以通过数学建模来利用算法直接判断异常态,但是某些设备的性能数据对于故障的指向性不是特别明确,甚至缺少关键性能数据,此时就需要控制器采集设备其他维度的信息来进行综合研判。例如设备自身上报的告警,设备关联业务的健康度,相关联的交换机端口状态等等。我们以波长转换板卡(OTU板卡)为例简要说明综合分析过程。在之前的运营中,OTU板卡故障一般是在上层业务受损后被发现的。然后人工查询并判断是数通层面故障还是波分层面故障,定位到波分层面故障后再定位具体的故障点位。定位到具体故障设备后,再来通过相关的设备告警定位故障具体发生在客户侧模块,线路侧模块还是OTU电卡。整个故障定位流程十分冗长且需要人工确认,并且在确认众多告警和故障之间的关联时需要丰富的经验,这对后续的排障工作也带来了较很高的难度。

图五  多维度信息综合分析流程

  因此我们将告警、业务状态、巡检结果都融入自动化故障监测体系中。从OTU板卡告警触发,开始关联分析业务的状态。若业务状态异常,则进一步分析这个告警的严重程度,根据其和故障的相关性分级处理,结合受影响业务的数量来判断具体是OTU故障还是潜在的上插模块的故障。另一方面,日常的巡检收集对业务无影响的告警,从故障防控的角度提前知晓设备劣化的动态,并发出故障预测。总体而言,通过编排告警的优先级以及对应处理方式,可以为后续排障工作提供准确的指导建议,进一步提高故障处理的效率。

  总结

  腾讯开放光网络系统实时设备故障监测系统,依托于腾讯开放光网络系统秒级telemetry性能监控能力的海量运营数据,引入先进数据分析算法,实时发现设备性能异动;结合设备告警、业务状态信息分析等手段,显著提升了故障定位的准确性、查全度、时效性,有效解决了在不同厂商设备混合组网的开放网络中,定位设备故障的难题,提升了光网络系统故障应对效率。展望未来:一方面故障监测系统将会不断优化算法,进一步提升故障定位准确率和排障效率,同时,更多新的故障类型将会纳入实时监测体系中。另一方面,将会探索故障监测系统与优化系统联动配合,实现故障、监测,优化的闭环。

  作者:怀健、王宇、明刚

内容来自:鹅厂网事
本文地址:http://www.iccsz.com//Site/CN/News/2024/10/21/20241021045005750685.htm 转载请保留文章出处
关键字:
文章标题:面向腾讯开放光网络系统的实时设备故障监测
1、凡本网注明“来源:讯石光通讯网”及标有原创的所有作品,版权均属于讯石光通讯网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、免责声明,凡本网注明“来源:XXX(非讯石光通讯网)”的作品,均为转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。因可能存在第三方转载无法确定原网地址,若作品内容、版权争议和其它问题,请联系本网,将第一时间删除。
联系方式:讯石光通讯网新闻中心 电话:0755-82960080-168   Right