![](http://n.sinaimg.cn/spider20220905/126/w650h276/20220905/c4dc-bb2efdf660ce8c94bd689f53ac42b70f.png)
国内各行业的IT信息化建设正处于高速发展阶段,业务量与日剧增,伴随着数据大集中,以及业务系统的快速上线,运维部门作为业务网络保障部门面临着巨大挑战和压力。由于各种关键业务和应用都被承载在基础架构、WEB应用、中间件和数据库上,同时业务系统上线需实现快速、灵活、按需的可插入式部署能力,这使得业务的复杂性和维护难度大幅增加。如何对这些复杂的业务系统进行有效监控和风险防范,保障关键业务的高性能和高可用性,以及如何对现有的运维流程进行优化,不断提升管理和运维水平已经成为新的难题。
以某企业为例,该企业的数据中心部署了大量负载均衡设备,经常出现大量Limiting closed port RST Respond 告警信息,由于没有流量分析能力以及标准运维工作流程,每次出现该问题时运维人员不知道是如何引起,对业务有没有影响。因此定位故障总是需要耗费大量时间,造成排查效率较低。具体难点如下:
业务运行环境越来越复杂,故障定位慢,各种业务系统越来越多,系统对相关资源的依赖性高,系统一但出现任何问题,需要逐个排查,故障定位难;
运维工作繁重,缺少工具和手段,维护人员每天面临大量的重复性、手工性的故障排查工作,不仅费时费力,而且容易出错,亟需新的手段帮助提升效率;
日常运维工作流程混乱,或者没有标准流程,造成工作效率低下,同时客户抱怨、投诉不减;
为解决以上运维痛点,nCompass流量分析平台从用户的实际情况出发,以数据作为切入点进行面向业务的数据可视化智能分析,从智能告警-数据回溯-数据分析-故障定位-分析流程代码化-智能分析六方面解决目前运维管理中面临的一些实际问题。
告警出现
F5设备出现大量Limiting closed port RST Respond 告警信息。
![【告警示意图】](http://n.sinaimg.cn/spider20220905/187/w650h337/20220905/ed5b-6b5e955780000eed9ed70ea7de5d6734.png)
【告警示意图】
由上图可以看出,某企业F5设备出现了大量Limiting closed port RST Respond告警信息,并且告警信息一直在持续,运维人员无从下手。
数据回溯
nCompass通过数据可视化手段,将维度指标的组合过滤进行问题回溯,可查询各个VLAN中Reset包信息以及Reset包数量。经过过滤后的表格可以看到是哪一个VLAN的 Reset数量最高。
![【维度选择示意图】](http://n.sinaimg.cn/spider20220905/321/w650h471/20220905/a5d0-8396d52f49cf08df563ea726d0c61685.png)
【维度选择示意图】
![【指标选择示意图】](http://n.sinaimg.cn/spider20220905/323/w650h473/20220905/5fc0-3e627b6f2ab7b15c0ac7074ef8cafd22.png)
【指标选择示意图】
![【数据表格示意图】](http://n.sinaimg.cn/spider20220905/798/w650h148/20220905/41c8-97c7c817a6411f1fe6cb7f7e21f3fb41.png)
【数据表格示意图】
通过上图“数据表格示意图”,可以看出,在nCompass数据表格选择好维度与指标后,可以将相关数据全部在数据表格中得以展现,通过展示出的数据得出VLAN2007 REST数量最高。
数据分析
接下来对表格中通过添加维度的方式对Reset数量最高的VLAN进行下钻分析,可以看出客户侧Reset包无明显异常IP,服务侧Reset列发现0.16服务端Reset占比超过80%。
![【客户端下钻示意图】](http://n.sinaimg.cn/spider20220905/155/w650h305/20220905/d453-f848b5f10dc6defe53414f18d980f610.png)
【客户端下钻示意图】
![【服务端下钻示意图】](http://n.sinaimg.cn/spider20220905/82/w650h232/20220905/f764-4546563f00f7e846095b13c127f45b4c.png)
【服务端下钻示意图】
在得出VLAN2007 REST数量最高后,我们要对其进行下钻分析,首先进行客户端下钻,通过上图“客户端下钻示意图”可以看出,客户端REST数量虽然总数过高,但是平均在每一个客户端上之后,只有几个或者几十个,所以可以先排除客户端异常。我们接下来在对服务端进行下钻分析,通过上图“服务端下钻示意图”发现服务端REST指标列最高达到了1,565,194个,他对应的IP为*.*.0.16,可以得出结论,服务端*.*.0.16为异常IP。
再通过nCompass DNS解析发现0.16对应域名telemetry.*******.com非公司域名。
![【DNS解析示意图】](http://n.sinaimg.cn/spider20220905/131/w650h281/20220905/797b-e94c67fd575259ef0960dd80e1eb0fca.png)
【DNS解析示意图】
得出异常IP后,我们可以将其带入至nCompass内置视图DNS解析中,通过“DNS解析示意图”中可以看出,异常IP*.*.0.16对应域名为telemetry.*******.com,经过DNS与CMDB的排查得出telemetry.*******.com非本公司正常域名。
故障定位
通过F5将0.16加入黑名单进行拦截后,整体服务端Reset下降明显,Limiting closed port RST Respond相关告警趋势明显下降。由此可见,造成Limiting closed port RST Respond相关告警量突增的原因就是由0.16导致。
![【告警趋势示意图】](http://n.sinaimg.cn/spider20220905/45/w650h195/20220905/98f1-1909e903f747348ef4f91ccf63cda96f.png)
【告警趋势示意图】
将异常IP的访问进行拦截后,可以通过上图“告警趋势示意图”看出,告警趋势明显下降。
分析流程代码化
nCompass作为新一代数据可视化智能分析平台,不仅拥有可视化分析能力,可以快速定位故障所在,同时,系统还支持将运维人员分析问题的经验代码化,将个体经验留存至系统知识库中,此后再有类似告警产生,系统将自动调用先前录入的智能分析脚本。
![【代码化示意图】](http://n.sinaimg.cn/spider20220905/130/w650h280/20220905/1a8d-2a8ee361503527ce8df7d35bd897a1b4.png)
【代码化示意图】
如上图“代码化示意图”所示,在每一次解决问题之后,nCompass可以将分析经验进行代码化,当在出现类似问题时,可以直接进行调用,一键分析问题,提高运维效率。如果您是一位编程高手或是遇有复杂的分析场景,产品也提供Python编辑器,来实现复杂的数据分析脚本。
智能分析
当告警产生,系统将自动调用智能知识库,给出故障的详细分析报告。报告内容包括分析对象、异常现象、分析结论、排错具体命令、后续建议等,同时报告中还会提供详尽的数据分析过程数据,以支撑分析结论,为运维人员下一步处置提供决策支持。
![【智能分析报告示意图】](http://n.sinaimg.cn/spider20220905/132/w650h282/20220905/aa04-b44ecc5831ffbc7fa8470a9eba10c2cc.png)
【智能分析报告示意图】
nCompass采用多源数据的采集方式,不仅可以基于流量进行分析,还支持与DNS、CMDB等进行对接,实现更深层次的关联分析。如上图“智能分析报告示意图”所示可以看出,分析对象为VLAN2007,在8月22日,发生了异常REST日志现象,我们不仅通过流量对其进行分析,还通过DNS与CMDB的自动调用来确定域名为异常域名,并且针对现象给出合理建议。
nCompass 流量分析平台从告警出现-数据回溯-数据分析-故障定位-分析流程代码化-智能分析六个方面为运维人员实现了从人工分析到智能分析的转变,在提供大量数据支撑的同时,还为运维人员提供一键式的故障分析能力,大幅降低了运维数据分析时对某些特定领域内专业经验的依赖,提升了团队的整体排障效率。为运维人员真正解决了日常运维故障定位难、运维工作繁重、重复性高、没有标准流程的困扰,实现运维故障“简单、快速,一键输出分析结果”。
(来源:新视线)