清单管理在运维服务中的实践
作为一家Cloud MSP+,新钛云服在为客户服务的过程中提供专家咨询、上云、选云、用云以及运维解决方案提出、落地,以及原有系统的持续运维管理服务。我们面向的客户来自各个行业,电商、新零售、游戏、教育、传媒、传统制造业等,我们的专家们经验丰富,但是如何持续、正确地输出所掌握的知识和经验,专家经验如何继承和复制,也同样值得我们深入思考和践行,我们不断总结,迭代,进化我们的服务能力,从而赋能每一位客户。
为什么有时候在复盘时发现本该10分钟解决的问题,实际过程中,20分钟甚至更久才能解决?
为什么经历大量案例,并已经形成了知识库,但关键时刻仍无法快速建立索引?
为什么在看似“万事俱备”的情况下,仍然有可能因为一个大家都忽略的小问题而影响进度?
这些问题,我在部门会议的时候和公司的专家们一起探讨过,特别当问题发生在生产环境的时候,时间是一个重要的参考数值,处理问题的时间离复盘之后的理论值越接近,才能称之为成功,否则都是失败。当然,一次失败并不可怕,可怕的是失败之后,下次遇到类似的问题再次失败。
我们为何在实践中容易犯错?
《清单革命》中提到,人类的错误可以分为两大类,第一类错误是“无知之错”,我们犯错是因为没有掌握相关知识,科学只让我们部分理解了世界的运行规律。第二类错误是“无能之错”,我们犯错并非因为没有掌握相关知识,而是因为没有正确使用这些知识。
在实际运维工作中,我们遇到的错误大多是“无能之错”, 比如硬件、软件、系统等在运行过程中出现的可穷举的概率性事件,以及人为的本不应该犯的错误。我们在持续、正确地运用我们所掌握知识的过程中遇到了问题,无论我们进行多么细致的专业分工和培训,一些关键的步骤还是会被忽略,一些错误还是无法避免。
通常,在每家公司也都会有一个知识库,用于归纳总结之前出现过的问题以及一些知识分享。这是一个很好的制度,方便积累、回顾和反思。但即便按照知识库建立的初衷那样认真的践行这一制度,也很难弥补人类与生俱来的认知缺陷,如记忆不完整或者注意力不集中。比如公司发展太快,运维环境越来越复杂;公司客户越来越多,案例越来越多,也会带来服务的复杂性。使用清单这一工具,可以为大脑建立起一张“认知防护网”,帮助激活记忆和集中注意力。
清单(Checklist)是什么?如何帮助我们更好的进行运维服务?
提到运维服务,大家可能第一时间会想到ITIL(Information Technology Infrastructure Library),清单有别于ITIL的事件管理和问题管理,我认为它是ITIL很好的补充,特别在应对紧急问题的实际操作上,清单将会非常有效。关于ITIL的事件管理、问题管理等都是标准化、成熟的流程管理思想,本文不再赘述,后面可以专篇来谈谈其思想精华的落地实践。
清单不是大而全的操作手册,而是理性选择后的思维工具,它能将够帮助我们在操作的每一步都尽力保持冷静而睿智的头脑,确保在必要的时候得到所需要的重要信息,系统地进行决策,在遇到复杂问题的时候,和每一个应该沟通的人进行充分交流,从而避免“无能之错”。
作为一家以客户价值作为公司价值的公司,我们的清单分为两个视角,首先是客户视角,其次是事件视角。
客户视角
传统的企业服务公司对于客户的维护往往偏重于售前,我们经常看到的情况是,销售了解客户的业务,售前了解客户的需求,售后了解客户实际的技术实现,如果还有客服的话,可能了解客户的一些案例,当然,也有可能什么都不太了解。如果服务企业是大象,那么这几个部门组织就是盲人,他们也许对自己了解到的每一部分信息都非常在行,可以说是专家,但是从整体来看,他们之间缺乏信息的同步机制,是信息缺失的,试问,在这样的基础上如何做好企业服务?
而我们的做法是赋予每一位客户独立的清单,在制作清单之前,我们会在团队协同工具中为每一位客户做好独立的编号并建立空间,空间内包含从这个企业从一开始成为我们客户时候的所有信息和重要事件的记录,由销售、售前、售后、客服共同维护,涵盖业务、需求、技术实现、故障处理、对接部门的组织架构、沟通历史等等信息。这个空间是一个大而全的知识库,是我们各个部门的专家对于这个服务对象的会诊记录,提供了不同组织之间信息同步的机制。但仅仅有记录是不够的,客户数量多,在关键时刻,查询记录是不够高效的,所以我们还需要提炼重要的信息,为每一个客户制作独特的清单,仅从运维服务角度上来看,清单能够快速激发运维服务人员对客户的记忆,有助于沟通、高效处理紧急问题,从而显著提升服务能力。
事件视角
我们将事件分为简单事件、一般复杂性事件和高度复杂性事件。
对于简单事件,比如客户运维服务月报的信息汇总,看似简单的事情,但需要保证给出的数据精准有效,帮助客户分析业务。如果由于技术原因或者是其他原因,我们给出的月报信息有误,就容易给客户造成困扰,对于客户体验也是非常不利的。我们为此会设定执行清单,提炼简单工作的关键点,避免忘记、遗漏和出错。
对于一般复杂性事件,专业性较强,需要完成的步骤比较多,出错以后会带来一定程度的影响,比如专享云、客户私有云的定期维护升级。我们会使用核查清单,确保每一个基础而重要的环节不被遗漏。
对于高度复杂性事件,特别是出现意料之外的问题的时候,我们需要有一个沟通清单,以确保大家在这个时候是以一个团队的形态去沟通协作。我们在帮助客户解决问题时会遇到各种各样的情况,每个人都是某1-2个领域的专家,遇到系统性复杂问题的时候,不可能单兵作战,为了保证客户的服务,通常都是几位专家以团队的方式去应对问题。大家在开始操作之前,必须就一些重要事项进行交流,简短地讨论一下事先没有预料到的问题,共同对潜在威胁做出判断,并以此来应对这一复杂性问题的不确定性。在交流的时候,每个人都需要发言,并共同商讨行动计划。由此避免因为细致分工而带来的让团队成员只关心自己手上的事情,而对其他成员碰到的问题不闻不问的问题,而是应该为了更好地实现团队的目标而贡献自己的力量。
清单设置有什么原则么?
清单有好坏之分,糟糕的清单模糊不清、不精确,而且冗长、不便使用,但优秀的往往精确、高效、切中要害,即便在最危急的情况下也便于使用。
我们在设置清单时候有五大原则:
设置清晰的触发事件。也就是当遇到这些关键事件的时候,需要按照清单列出的项目执行检查程序。比如:在做监控告警设置阈值,设置通知人,时间点;遇到某种故障的时候,首先检查清单中列出的可能性原因等。
根据不一样的问题分级,选择不一样的清单类型。
清单需要简明扼要,不宜太长。内容主要是注意力容易跳过的但又是一旦跳过容易造成严重威胁的步骤。
用语精炼、准确,版式整洁,不能杂乱无章。
认真执行,在现实中检验,建立信任,并不断更新。
运维服务清单本质上是运维服务专家们将其遇到的大量案例,进行梳理、总结、提炼出在各种场景下最关键的原则和关键点,是经验的传播,保证曾经成功过的方法和结果能极大概率的复制。但清单内容再好,实际工作中不执行,便无法检验,也就无法指出清单内的问题,内容就无法更新以适合最新的情况,最终无法凑效。所以日常的训练和执行非常重要,通过执行获得检验和反馈,再根据反馈修改清单内容,最终获得最合适的清单。当清单内容在实践中被证明是有效的之后,运维人员就会越来越能体会到它的好处。
运维服务清单的力量是有限的,它不会列出具体的操作步骤,解决问题的主角毕竟还是人,但它能够帮助人们搞清楚哪些事情是最重要的,确保在必要的时候得到所需要的重要信息,系统地进行决策,并和每一个应该沟通的人进行充分交流,促进团队合作。
所谓的成功往往无法复制,因为因素并不单一,但可复制的是严格按照正确的运维服务清单执行任务,并不断执行、检验、反馈、更新的方式能够使运维工作大道至简,从中获益。
作者介绍:金霄 新钛云服运维总监
十年运维经验,苏州大学数学专业本科和中国科学技术大学MBA毕业,并以论文《运维风险管理》获校优秀毕业生。曾任盛大在线系统工程师、微烛云和某互联网金融平台运维负责人、微烛云COO,组建微烛云产研测运团队,主导自研微烛云和自动化运维管理平台,致力于企业基础设施和运维服务。
精品好文:
新钛云服,打造最专业的Cloud MSP+,做企业业务和云之间的桥梁