随着向远程工作的转变继续,网络监控变得越来越复杂,云迁移也越来越普遍。当今的网络从核心扩展到边缘再到云,这使得网络可见性对于确保性能和快速解决问题至关重要。但根据EMA的最新研究,只有27%的企业认为他们的网络运营团队是成功的(自2016年以来,这一数字一直在下降,在16年时这一数字为49%)。从人员配备问题到无效的云战略,我们团队正在寻找如何简化流程、整合工具和改进网络监控。
有哪些最佳实践可以帮助实现这一目标?让我们深入了解五个。
正确的数据
为了实现完整的网络可见性,必须收集正确的网络数据,而且数据越多越好。但是,没有一个数据源可以提供完整的可见性。每种数据类型都会为仪表盘带来独特的内容。因此,许多组织采用各种专门的网络工具来访问它们。这不仅从工作流程的角度来看带来了生产力挑战(导致进一步的网络盲点),而且在许可、支持、专业培训等方面也成本高昂。幸运的是,一些高级网络监控解决方案提供了整合的功能,能够使用相同的仪表板查看每个域的隐藏角落,并更好地管理、优化和排除混合网络故障。
应该监视哪些数据类型?以下是热门列表:
SNMP 允许您识别和监控设备和网络接口的状态,包括 CPU 利用率、内存使用情况、热状况、带宽和许多其他性能指标。
流数据收集和汇总 IP 流量,以揭示一段时间内网络运行状况的趋势,并指出事件发生或网络饱和的位置。流数据有多种形式,从数据包标头中提取的基本信息到详细的应用程序信息,如 NBAR2 中包含的信息。请记住,并非所有流数据都是一样的。
数据包数据允许您查看流数据背后的详细信息并指出根本原因。
API 数据在 API 调用期间监控事务,以检测应用程序延迟、响应时间慢或访问应用程序时的可用性问题。
制定数据保留政策
并非所有问题都能立即识别或报告,因此成功的网络监控策略包括一个追溯计划,以提供审计跟踪,以便在事后调查问题。数据保留策略通常解决诸如保留不同数据类型的时间、数据的粒度以及存储格式和位置等因素。
对于流和 SNMP 数据,答案是相似的。当然,您希望尽可能长时间地保留数据,对于流量和 SNMP,保留时间通常以月甚至更长来衡量。总体保留时间只是您愿意使用多少存储空间的问题。尽管如此,合理的存储空间(数十TB)可以快速提供数月的存储,具体取决于收集数据的设备数量。延长该时间的一种方法是对数据进行时间平均。例如,获取当前为一分钟粒度的数据并将其平均为一小时粒度,从而有效地将 60 条记录转换为一条记录。执行此操作的选择应该是可配置的,并且将根据您希望完成的长期报告类型进行个人选择。
数据格式可能取决于解决方案。尽管如此,所有解决方案都会尽最大努力使单个记录尽可能简短,并使用压缩等其他技术来提高效率。长期存储将始终位于固定介质上,无论是硬盘驱动器 (HDD) 还是固态驱动器 (SSD)。SSD 更昂贵,但在运行长期报告时提供更好的响应时间。短期报告可能依赖于内存中的数据 (RAM) 来提高性能,但最终,所有数据都会移动到固定介质。
数据包存储是另一回事。即使在高速网络 (20+ Gbps) 上有数百 TB 的存储空间,您最多也获得数天的数据包存储。由于您永远不知道分析中可能需要哪些数据包,因此无法像流数据记录那样对数据进行采样或进行时间平均。压缩是可以做的最好的方法,但由于数据包数据的内置密度,压缩只有一点帮助。
两种有助于帮助的技术是过滤掉您确定永远不会分析的数据包数据,例如备份数据,以及在数据包有效负载未加密存储数据包时进行有效负载。如今,大多数网络流量都是加密的,如果您没有密钥,则存储数据包有效负载并不好。寻找一种基于协议自动执行此切片的解决方案。数据包存储将完全在固定介质上,并且考虑到任何有意义的时间长度通常需要的存储量,HDD 仍然是唯一具有成本效益的选择。
使用设备清单保留网络图
消除可见性差距至关重要,每个交换机、路由器、端口和端点都必须以虚拟方式定位并实时观察运行状况和性能问题。虽然这种网络清单映射可能是一项艰巨的手动任务,但许多网络监控软件平台中的设备自动发现工具会为您创建这些列表。没有它,就没有办法绘制网络的外观,也没有办法以网络工程师直观的方式可视化网络的利用率。网络库存映射提供了覆盖流数据的基础。如果没有这样的地图,就像在旧金山和波士顿之间画一条直线,并声称“这就是我开车穿越全国的路线”,中间绝对没有细节。
专业提示,在考虑网络监控工具时,请询问它们是否包括设备管理系统 (DMS),以便您可以轻松地远程配置、监控或重置设备。这将有助于更有效和精简的管理。市场上的许多独立产品都执行此功能,但是当此功能集成到您的整体网络管理解决方案中时,效率要高得多。
创建详细的升级计划
升级计划通常涉及警报优先级或威胁评分,因此落在不同阈值范围内的警报会转到正确的预定联系人,通常在网络工程师、应用程序工程师和安全团队成员之间共享。这有助于立即关注意外流量激增或异常 IoT 行为等关键问题,或者稍微好一点的问题(如设备转速降低或延迟略有增加)可能会筛选到响应时间较长的调查队列中。
预先确定的响应计划可防止组织拥有一个压倒性的警报池来钓鱼,最大限度地减少响应延迟,并创建与警报专门分配到的组或 Pod 的责任。与数据保留策略非常相似,这些计划将有助于制定流程并帮助变更管理、危机预防等。
尽可能实现自动化
成功的网络监控策略侧重于效率和快速反应,在有意义的地方实现自动化。自动执行关键任务,例如每日备份、应用安全补丁和软件更新、重新启动故障设备或运行每周报告,可以释放工程资源,用于优化网络流路径和规划未来计划。自动化不仅有助于节省资源,而且还为您的团队打开了空间,让他们随着公司的发展将更多时间投入到规划、战略和升级流程上。
自动化不仅限于单个系统或解决方案。也有一些最关键的自动化发生在产品之间。包括当网络监视系统在服务管理系统中自动创建票证时,或者安全信息和事件管理 (SIEM) 直接与网络管理解决方案通信以启动数据包记录来响应高优先级安全警报。许多产品都能够实现这种级别的自动化,但您通常必须询问并验证其中有多少是真正自动化的,以及您必须自己编写多少脚本。
这些只是一些简单的网络监控最佳实践,它们应该有助于简化并确保更好的网络可见性。