互联网 频道

寻根究底 找到业务系统中断的根源

  【IT168 软件应用】业务系统频频中断,IT运维人员疲于“奔命”,永远处于“救火队”的状态下。使用网络监控系统后,每当业务中断时系统都会及时报警,结合系统提供的故障原因的诊断报告,IT运维人员的工作效率得到了很大的提升。久而久之,引起了另外的一个值得IT运维人员关注的重点,业务系统在第一时间得到了恢复,同样的事件故障反复发生,同一个服务器出现故障导致业务系统不时中断,这时IT运维人员就需要提高警惕,要找到业务系统中断的根源所在。

  据统计数据显示,80%的突发事件都是由20%的问题所引起的,如何去找到这些事件故障的根源?通过实施问题管理流程可以快速有效的发现事件故障的根源所在,制定详细的解决方案,避免事件重复发生,提高IT服务水平。

  什么是问题管理

  问题管理的目标:稳固IT服务;将突发事件减到最少;找出突发事件产生的根本原因;避免相关突发事件或问题的再次发生;提高资源的使用率。

  问题管理成功的关键因素:主动地问题管理,通过趋势分析,在事件发生前解决问题;事件的有效和自动化的记录以及基础设施行为的有效记录;切实可行的目标并充分利用专家意见;突发事件管理和问题管理的有效合作。

  问题管理将带来以下好处:将突发事件减到最少;找出突发事件产生的根本原因,减少事件的重复发生率;主动分析事件发生趋势,预先防止事件和问题的发生;找出根治的解决方案,避免相关突发事件或问题的再次发生;提高资源使用效率,提高事件管理的一线解决率。

  问题管理属于IT服务行业的标准ITIL中的其中一个流程,在问题管理阶段, IT运维人员借助IT运维管理平台提供的统一运行展现平台对以往发生的事件故障进行统计分析,直观的了解到事件的分布情况、发展趋势、概率情况等统计信息,主动寻找事件发生的根源,制定相应的解决方案和预防措施,有效的减少由于20%的问题根源导致的各种突发事件的频繁发生。


图 问题管理功能示意图

  作为IT服务管理的标准——ITIL强调以客户为中心、以流程为导向。ITIL规范主要包括服务支持和服务交付两部分。服务支持由服务台、事件管理、问题管理、变更管理、发布管理、配置管理等功能模块组成。为了更好的提升IT服务水平,众多用户都选择实施遵循ITIL管理理念并符合自身运维需求的IT运维管理平台。

  广通结合多年的IT服务管理经验,借鉴ITIL理论自主研发了以IT技术与业务融合为目标,以资源监控为基础,以服务流程为驱动的IT运维管理平台——Broadview COSS 3。平台定义了包括故障事件管理、问题管理、变更/发布管理、配置管理、作业管理、知识库、服务考核等在内的服务管理流程,能够为用户提供运维过程中的流程化处理的IT服务管理解决方案,通过各流程环节的工单形成IT服务的闭环管理,将人员、流程和技术有机地结合起来,将管理、监控和考核有机地结合起来,提升整体的运维管理水平。

  罗马城非一日之工,IT服务管理的规范化也不是一朝一夕就能够解决的。广通信达认为IT服务管理的部署和实施也应该讲究方法,梳理一个流程、实施一个流程、成熟一个流程,分阶段实施逐步达到目标。

  ITIL实施第一阶段,首先实施服务台、事件管理、配置管理这些基础功能模块;服务台能保障“问责到人”,通过服务台派送工单给相应的人员;事件管理就是IT运维管理人员在接到工单之后及时作出响应恢复业务系统正常运行的一个过程;配置管理里面记录了IT基础设施的配置项数据,建立统一的资源台账,存储了IT资源全生命周期的过程,同时为其他所有的流程提供查询的基础;这三个模块能初步保障IT服务管理摆脱以往“混乱”的现状得到一个较大的提升。

  但是这个提升远远不够,上一阶段仅仅降低了业务系统的中断时长,如何降低业务系统的中断率,保障业务系统更加稳定的运行,提高业务人员工作效率,提升客户满意度?IT部门就需要思考:如何才能减少突发事件的数量?如何避免突发事件的产生?怎样从被动变主动?

  ITIL实施第二阶段:问题管理、变更与发布管理,在这一阶段,问题管理模块的主要功能就是查明故障产生的根本原因,制订解决问题的方案并预防再次发生。如果发现问题的根源是软、硬件设备问题造成的,这时需要对软、硬件进行更换与发布管理。

  通过ITIL第二阶段问题管理、变更与发布管理的实施,大大降低了业务系统中断次数,提高了业务与客户的满意度,提升了IT服务管理水平。这阶段实施完毕,IT运维管理基本可以实现可控和在控。可控要求的是基础IT运维有流程、有职责;在控则是要求在可控的基础上进行扩展,在完善IT服务管理流程的同时建立IT服务管理的部分管理流程。

  事件管理与问题管理的区别

  经常会有人混淆事件管理与问题管理,在ITIL实施第一阶段,事件管理可以帮助IT部门更加快速地处理事件,但是,事件管理仅仅恢复了业务系统正常运行,并没有消除引起业务系统中断的隐藏问题,事件管理快速修复故障,解决方案往往是临时解决方案,其强调的是速度,仅仅是一种“治标”的方法。

  为了降低突发事件率,提高业务系统运行状况,我们必须使用一种“治本”的方法——问题管理流程。问题管理针对的是未知原因的一个或多个事件,其重点在于发现事件的根源,确定问题的根本原因,从而制定恰当的解决方案,从根本上解决问题,减少或杜绝事件的再次发生。(来源:广通信达科技胡艳丽)

0
相关文章