概述
网络异常流量突发是经常困扰运维管理人员的问题之一。突发流量可能会造成网络的拥塞,从而产生丢包、延时和抖动,导致网络服务质量下降;不仅如此,突发流量还可能存在安全风险,例如:DoS攻击、蠕虫、窃密等,会对网络和业务系统造成更大的危害。
问题
如何快速方便地检测网络突发事件并找到相关的发送方和接收方?
使用工具
虹科Allegro网络万用表,一体化网络故障排除设备,轻松点击几下就能发现问题,找出故障。
解决问题
突发检测
Allegro 网络万用表提供几个选项来检测突发事件:
- 你可以使用仪表板中的总吞吐量图。该图汇总了所有接口上的传入流量。数据显示的分辨率为1秒。导致流量显著增加且持续时间足够长的突发,会形成一个峰值,很容易看到。
- 你可以在 “接口统计 “页面查看流量图。这些图表显示每个接口的流量,时间分辨率也是1秒。
- 当总带宽吞吐量过高时,可以使用“带宽事件”来自动通知。在 “设置”->”事件设置”->”全局事件 “下配置的。只需定义一个带宽或数据包速率的下限或上限以及严重程度。时间分辨率为1秒。
- 对于更高的分辨率,即1ms,你可以使用 “接口吞吐量 “事件。它们是每个接口的事件,当超过阈值时就会产生。
实例分析
接口吞吐量事件
在这个例子中,我们将使用 “接口吞吐量 “事件来检测突发事件并找到谁发送了数据包。
对于回溯式的数据捕获,你可以使用Allegro万用表的数据包环形缓冲器的功能。
在 “设置”->”模块设置”->”接口 “下,我们启用测量模块,并将测量间隔时间设置为5ms。你可以把它从几秒钟设置到低至1毫秒。在’设置’->’事件设置’->’接口吞吐量’下,必须通过设置严重程度为 “低 “和阈值为700 Mbit/s来启用该检测。
几分钟后,我们得到一个通知,并进入‘通用’->’事件’下的概览。当点击事件时,我们看到关于突发事件的细节。
该突发事件开始于14:42:26.695,持续了大约5个测量周期(25毫秒)。pcap链接是可用的,它将提供对突发事件前后时间的捕获,以便进行深入的每个数据包分析。我们可以先下载PCAP包之后进行分析。
“作为全局时间范围使用 “按钮允许设置突发时间前后的全局数据范围。通过使用它,Allegro 网络万用表中的所有模块将显示统计数据,并提供该时间范围的捕获。我们点击它,对该脉冲进行分析。
是什么导致了这次突发事件?
首先看下仪表板:
总吞吐量图的时间分辨率太低,无法显示与事件图中相同的数值。但我们可以很好地了解到在这个时间间隔内流量最大的IP。AFP和SSL是使用最多的协议。一个IP的流量值是双向的,所以一对发送方和接收方会有大约相同的流量,可以很容易就看到。
我们可以假设前4个IP地址中的任何一个是突发数据包的发送方或接收方。虽然第5个IP地址与其他地址相比有一个相对较高的数据包率,但字节数明显较低,它不可能导致这次突发事件。
你可以通过按Shift键和使用鼠标滚轮来放大和缩小所有图表。这将设置全局时间范围并更新显示的图形和数值。缩小后,你仍然可以在仪表板上看到相同的流量分布。
让我们检查一下 “IP”->“IP 统计”下更详细的IP列表,以获得更清晰的图像。我们想弄清楚排名靠前的IP地址是否在相互通信。也许我们可以在与突发事件有关的流量中找到一些规律?
我们可以立即看到在事件发生前后,10.54.0.108和10.54.0.225这两个IP地址都出现了峰值。
现在让我们分析一下10.54.0.108这个IP地址,点击它并打开 “peers “选项卡。
这两个IP地址都在互相通信。10.54.0.225 突然开始向 10.54.0.108 发送异常多的数据包。
我们现在使用wireshark分析刚才下载的突发事件pcap包,以检查更多细节信息。
在事件发生之前,流量明显降低。在14:42:26.69497 IP地址10.54.0.108向10.54.0.225发送了一个数据包,引发了流量突发。
总结
使用虹科Allegro网络万用表,可以快速定位造成突发的发送和接收方主机IP地址,并通过数据包分析,快速找到造成突发的原因。