Claranet成立于1996年,是一家IT服务管理公司,为全球组织提供网络,托管和托管应用程序服务。以客户体验为公司使命的核心,Claranet通过提供工具,自动化和IT服务帮助弥合客户的技术差距,使他们可以专注于创新,同时继续从事内部开发和维护工作。
Claranet的首席工程师Andrew Rundle是Group Engineering团队的成员,该团队负责监督Claranet的基础架构和运营服务,尤其是围绕在其自己的数据中心和公共云中托管的工作。他的团队的职责范围从部署服务器和容器到为客户管理应用程序体验和DevOps流程。
“我们的团队的目标是降低客户的成本并帮助他们建立更有效的运营,同时引入新的技术,产品和服务,” Rundle解释说。
Claranet经历了几次业务收购带来的快速增长,并且在过去几年中其员工人数几乎增长了两倍。这种增长导致Claranet增加了几个新的IT团队,并涌入了新的客户,应用程序和支持工具。
这种内部和外部的增长,再加上将新的运营模型与现有的IT流程相结合,带来了一些新的挑战,包括:
1、呼叫计划和轮换不平衡导致的响应者倦怠
2、由于新团队和新技术的涌入导致的通信问题,与客户保持SLA
3、通过向组织添加新的团队,工具和服务来扩展技术
4、确认支持电话的延迟,这对MTTR和报告功能产生了负面影响
5、由于整体监控系统,手动流程和孤立的工作流程而导致效率低下
由于新客户,产品和服务的增长,Claranet的组工程团队需要一个端到端的事件管理平台来正确地确认,响应和解决事件,以免对内部和外部客户造成负面影响。“我们的团队在非工作时间每晚接到四到五次电话,询问一种产品。这给我们的团队造成了响应延迟,疲劳和沮丧。“我们的一些工程师之所以离开,是因为现有的模型是不可持续的。” Rundle说道。
1、使工作更加自动化
在PagerDuty出现之前,Rundle的团队使用本地网络运营中心(NOC)资源来记录传入的警报,这是一个手动过程,在事件到达指定的响应者之前,它依赖于多种人工交互。这些团队和区域中的一些拥有集中的NOC,而其他区域则采用DevOps和SRE进行工程运营,从而在公司内部建立了HybridOps模型。结果,团队发现很难打破孤岛并确保整个监控堆栈实现一定程度的标准化和技术采用。
大量涌入的电话使资源耗尽,并且本地NOC在进入时没有适当地向组工程团队上报警报,因为他们没有完全意识到与警报相关的事件的严重性。“ NOC团队会在下班时间收到警报,直到第二天早上才通知我们的团队,当我们的服务中发生更严重的事件时,这将成为问题,” Rundle说道。对手动流程和人机交互的依赖在响应流程中造成了瓶颈,并对MTTR产生了负面影响。
有了PagerDuty实时呼叫路由功能,Rundle的团队现在可以创建自助服务模型,以确保将传入的事件在适当的时间自动发送到适当的资源,以快速有效地做出响应。Claranet上的PagerDuty实时呼叫路由以两种不同的方式使用:
(1)内部:当发生事件或事件时,监视系统最初无法捕获,或者在特定情况下,对于特定于平台的事件,需要团队使用时,可以立即通知合适的团队以安排适当的响应。
(2)外部:某些客户与Claranet随叫随到的团队建立了直接的通信联系,因此他们可以在必要时将重大事件直接升级给合适的响应者。
“从现在开始,我们基本上已经到了这样的地步:由于实时呼叫路由,我们不再需要依靠人工干预。随着时间的流逝,组织中的其他团队由于其自助服务领域而继续采用它。” Rundle解释说。
2、PagerDuty的好处
Claranet已在组织内的多个全球分布团队中部署了PagerDuty,包括网络,安全和工程团队。Rundle的团队使用PagerDuty与Slack的集成,以在事件发生时快速无缝地就事件的响应和管理交流,同时还确保事件的当前状态对执行团队等利益相关者具有完全的可见性。“在PagerDuty之前,我们必须单独与人们联系以询问发生了什么事情,但是通过Slack集成,我们可以看到每个人的警报,并且我们实际上可以分析整个平台之间的相关性,”他分享道。
此外,PagerDuty还帮助改善了数据管理,并向主要利益相关者和领导团队报告了事件管理流程。“从数据的角度来看,PagerDuty可以为我们提供帮助,因为您实际上可以看到数据,将其带给管理人员并说,’看,这值得花时间和金钱,’” Rundle解释说。
有了PagerDuty,Claranet的区域团队拥有自主权,可以最适合特定团队的现有流程的方式使用该平台,并且每个区域团队都可以以自己的原始方式利用PagerDuty。“ PagerDuty是一个简单,精巧的应用程序,最终使我们的团队可以减少工作量,并通过从中获得的数据真正看到影响,” Rundle说道。
Claranet在PagerDuty上还看到了其他一些好处,包括:
(1)通过消除手动工作并在事件响应过程中增加自动化来改善MTTR;
(2)使用PagerDuty实时呼叫路由,更快地响应和解决传入的警报;
(3)由于新的流程效率,降低了运营成本并提高了服务可用性;
(4)通过分析和数据报告,使主要利益相关者对呼叫绩效和事件解决方案具有更大的可见性;
(5)数据采集的中心点通过PagerDuty的350+集成生态系统聚合所有监视数据。
Claranet计划继续在整个全球组织的不同团队中扩大PagerDuty的使用范围,包括整个团队中的基础架构,公共云和安全团队。“我们希望变得更加积极主动,并利用更多的自动化来预测实际情况,并尽可能减少噪声,” Rundle说道。他的团队还在考虑实施PagerDuty事件智能,以进一步了解事件的构成以及他们如何改善整个组织的响应过程。
秉承
专业和诚信
注重
创新和思考
提供
洞察和价值
Eero-技术主管
秉承
专业和诚信
注重
创新和思考
提供
洞察和价值
Eero-技术主管