尽管网络基础设施的稳定性越来越高、IT运维概念不断推陈出新,但事实上,还有众多的网络工程师并没有从日常维护工作中得到真正意义上的解脱。而作为被动运维管理的典型,“电话报修”这种传统模式必须要得以彻底改变,才能将网络工程师丢失的时间、精力和效率找回来,才能从在主动服务中将IT运维管理的真正价值释放出来。
某大型电网公司网络信息中心,每天接到的报修电话数量超过百个,由于长期处于高压状态,很多工程师都对电话铃声极其反感,有的人甚至怀疑自己患上了“电话恐惧症”。如果从心理学角度上分析,这种莫名的恐惧,是一种容易治疗的疾病。但若从技术和管理角度上分析,则是整个IT运维系统出现了问题,电话另一头许多的“未知”是让工程师产生不安的“病根”。
作为国内IT运维管理专家,北塔软件认为:只有具备主动事前管理+故障判断功能的运维解决方案,才能帮助用户彻底摆脱“电话报修”这种被动运维模式。网络架构就如同人体构造一样复杂,造成网络故障的原因也是多种多样。一方面,用户在电话中的描述很难准确;另一方面,网络工程师采用手工检测、经验判断,一般也就能解决“通断”之类的故障,对用户端实际情况也很难判断出真正原因。
那么,IT运维人员通过何种途径能够实现“事前管理“?针对本文中的案例来看,首要任务就是解决设备层面的监控和预警难题。信息网络中心需要把链路、网络设备、服务器等纳入一个平台上进行管理,提供7X24小时全天候监控。
对此,我们通过分析北塔软件IT运维综合管理解决方案可以看出端倪。首先,通过涵盖网络、应用、故障、资产等方面一体化管理平台,彻底消除企业IT管理中的盲点,从而解决“被动运维”给企业造成的效率不高、服务水平低陷的问题。利用北塔软件的自动拓扑发现功能,可以帮助管理员对所管理的设备类型进行分类,并对设备所涉及到的参数进行实时监控。同时,该方案还可以通过灵活多样的告警方式,主动告知运维人员当前遇到的问题和原因,这便消除了电话中许多的“未知”因素,从而在全局和细节上都能实现主动运维。
其次,在故障发现方面,基于ICMP的管理,只能对服务器和网络设备的连通性进行简单性测试,但在业务逐渐复杂的后续阶段就显得力不从心了。不难看出,北塔软件在解决方案中采用了以“路径”为核心的故障分析方法,包含了化解故障复杂性的“故障根源分析策略”、TFS管理系统、业务流量视图等等。
针对“路径”的具体应用,北塔软件表示:不论多么复杂的系统,都有数据行走的路线。而通过日常高频度监测少量关键指标,控制被管系统承载压力,一旦发现问题,便能依据业务系统实际的流量路径,逐层扩大数据采集的深度和广度,层层深入,这样就可直达故障的根源。
恐惧的原因是缺乏自信,而作为支持企业实现从设备管理跨越到业务管理的运维平台,IT综合管理解决方案中许多功能可以消除“未知”,从而让IT运维管理重获自信。另外,该方案还包含了“业务视图”、“自动巡检”和“业务仿真”等更高级的运维“助手”,不但可以改善被动运维的局面,还可以站在用户的角度实现网络应用体验。例如:设定完成“业务仿真”的流程和平均访问时间阈值之后,北塔BTIM将模拟业务与运维人员自动执行登录、模拟处理常规业务流程、搜寻业务系统故障、尝试自动修复等操作步骤。而这些创新应用的引入,都是确保IT部门在电话铃声响起前,便能提前发现问题,让主动服务轻松实现。
如此,网络工程师远离电话铃声已经不是问题,而所有故障处理也不必再凭借“假设推断”和“个人经验”来排除。主动运维格局的形成,不但具有了从运维怪圈跳出的弹力,更可以在日后的创新应用中拥有持续优化的能力,从而更好地将IT与业务相融合,促进业务的快速发展。(作者:子鉃)