2020年3月20号华为开发者大会HDC.Cloud上,华为网络人工智能NAIE将线上介绍无线接入网毛病智能剖析的具体计划细节以及经历,欢迎咱们重视大众号【网络人工智能园地】,点击菜单【HDC】,接入咱们的直播和专家线上讨论沟通!
一、毛病对运维工程师的“DDOS进犯”
运营商的网络越来越巨大、杂乱。
网络中包括许多的、不同功用、不同事务域、不同厂商、不同类型的设备。各运营商网络的组网协议、拓扑形状也不一样,且各设备数据格式、传输协议、对网络情况的呼应也不共同。
受上述种种要素的影响,运营商网络的运维益发困难。在网络施行、事务编列、可用性确保、安全确保等这些运维事项中,毛病处理是中心、是确保网络事务继续可用很重要的一环,一起也是其间最扎手的作业。
图1、无线接入网示意图
无线接入网场景是毛病处理的重中之重,其处理本钱乃至占到整个运营商网络保护本钱的95%左右。图1为一个典型的无线接入网简略示意图。在该网络中,一般有三个事务域的设备:动力环境域(动环)、无线域、接入传输域。
接入传输域常见的网络结构如下图中绿色标号所示:1、接入环;2、耳朵环;3、会聚环。机房中电机、电池等动力设备给机房中基站、传输设备供电;基站经过一跳跳的传输设备回传数据到中心网(如图中赤色曲线箭头所示)。
无线接入网中毛病有如下三个特色:
1.告警量十分大。网络发作毛病时,毛病网元及相邻、有事务相关的其他网元会发作许多的告警上报至网管。图2展现了当机房发作停电毛病时,网管收到的许多告警。据国内某运营商一局点核算,其无线接入网中网管收到的原始告警一天在3千万左右。
2. 毛病随发作方位、网络拓扑不同而影响规模、发作现象不同。相同一个传输网元单板毛病,其在接入环仍是会聚环会对应不同的影响规模。此外,相关网元是否有备用事务途径也决议其受影响不一样。
3. 毛病具有突发性,相关处理人员压力较大。一旦发作毛病,运营商期望能够快速康复、不影响事务。
因而,运维工程师只是依据网管搜集的告警来直接剖析、处理毛病十分困难。当网络中发作若干个毛病时,工程师能依据其经历去剖析、定位并处理。但是现网一直在发作毛病,从各设备来的告警源源不断地抵达归纳网管。过不了一瞬间,工程师就看不下去、“拒绝服务”了。典型的“DDOS进犯”套路!
图2 、机房停电毛病时,或许发作的告警
面临这样的窘境,华为网络人工智能NAIE团队测验用人工智能技能处理网络运维工程师的困难。
思路是当网络中发作毛病后,AI服务依据实时的事情流(如告警、KPI反常事情、日志反常事情等)、拓扑数据,快速地聚合毛病相关信息,精确地定界定位毛病根因、辨认影响,给出毛病剖析成果及修正主张。
二、思路改动:面向告警->面向毛病
毛病处理不是新课题。运维工程师实践处理毛病时也不直接面临全量告警。现有的做法一般有两类:
1)白名单过滤,只看重要告警;
2) 依据告警紧缩规矩紧缩,灵敏过滤出现重要告警。
这两种做法本质上仍是看告警,并且是过滤后碎片化的告警。如前所述,一个毛病对应多种告警。跟着拓扑、方位不同,毛病还能发作不同的影响。那么过滤后的告警,究竟是归于同一个毛病仍是多个呢?是原因仍是现象呢?工程师仍是得凭仗自己丰厚的经历、依据片段信息来判别。这类做法是治标,如井蛙之见,唯资深运维专家可“猜”一斑。
图3、依据毛病处理毛病
何为治本?依据搜集的信息,去复原毛病原本的面貌。
如图3所示,华为网络人工智能NAIE辨认毛病、出现其原因、影响规模,让工程师按图索骥:依据毛病自身来修正毛病。即,咱们不再以告警“紧缩率”为方针,而是以工程师快捷、精确地定位、修正毛病为方针。让工程师从面向告警改动为面向毛病,力求毛病处理不重复、不讹夺、不“费事”!
三、从事务动身建模,匹配落地适宜算法
治本的设想很好,实践怎样来完成呢?
咱们在实践进程中总结有两个要害点:其一,必定要从事务问题自身动身去笼统、建模,屏蔽不同局点、不同组网等对算法计划带来的影响;其二,拟定共同的处理范式,匹配落地适宜算法。
算法是东西,实践事务问题才是着手点。各运营商网络的不同(设备、协议、组网、厂商等)和杂乱性就注定其毛病剖析较困难。咱们要从事务动身去笼统,屏蔽不同,抽取算法需求。例如,告警到达网管无序、毛病继续时长不定(随类型、方位、拓扑而不同),那咱们该动态猜测毛病时长,确保毛病信息聚合精确。例如,有的局点拓扑成环、有的为树形,那咱们的算法不该嵌入具体拓扑形状信息,而应适用不同拓扑形状。例如有的局点有独立的动环体系、有的则无,那咱们为每个机房都虚拟一个动环网元,确保后续处理共同。只要当咱们把这些不同屏蔽好,咱们的算法计划才是通用的。
图4 、毛病智能剖析处理范式
依据上述笼统后的事务问题,咱们界说了一套处理范式,如图4所示。毛病智能剖析进程含4个首要过程:
1.去噪:开始的信息过滤。例如施工区域告警屏蔽、震动、闪断告警辨认过滤等。
2.毛病聚合:对实时、许多、乱序的流式数据做处理,聚合一个个毛病相关的数据,以便下步剖析。
3.辨认定位:辨认毛病规模、定位根因网元以及根因告警。
4.确诊:确诊毛病品种,并给出修正主张。
其间要害过程在于毛病聚合以及辨认定位。聚合要依据拓扑、时刻等信息将一个毛病或许相关的事情数据打包在一起,其精确性是后续辨认定位精确的根底。因为网络推迟等要素,聚合还要能忍受必定的时刻不精确以及乱序问题。这其间触及一些聚类、拓扑图查找、流式数据处理等算法。辨认定位能够当作分类问题来处理。即,其间猜测聚合的数据中哪个网元、哪个告警是根因。但是许多客户并不喜爱这种黑盒处理的方法,且无标示杰出的样本数据。此刻,依据毛病传达图的白盒化毛病剖析则更适宜。上述4步,每步都能够有若干算法能够测验。在实践的毛病剖析项目中,咱们该依据实践需求落地适宜算法,一味的寻求某种技能往往拔苗助长。
华为开发者大会2020(Cloud)是华为面向ICT(信息与通讯)范畴全球开发者的年度尖端旗舰活动。大会旨在建立一个全球性的沟通和实践渠道,敞开华为30年堆集的ICT技能和才能,以“鲲鹏+昇腾”硬核双引擎,为开发者供给汹涌动力,改动国际,变不或许为或许。到时在网络人工智能将在线上有更多具体内容,咱们等待与你共创核算新时代,在一起,梦飞扬!
网络人工智能园地,力求打造运营商范畴榜首的人工智能沟通渠道,促进华为iMaster NAIE理念在业界(特别通讯职业)构成影响力!
线上直播链接:
https:///externals/hdc-2020?from=singlemessage&isappinstalled=0
编 辑:孙秀杰