近日,由中国信通院、CNCF(云原生计算基金会)、华为云联合主办的创原会·云原生技术创新峰会在四川成都青城山举行,超过200名云原生领域的产业专家、咨询机构分析师及云原生企业技术精英齐聚一堂,围绕“蓄力远行,成就新云原生企业”主题,探索云计算领域的前沿技术和产业趋势,分享汽车、金融、零售、医药、互联网、物流等行业的云原生先锋实践。
会上,华为云SRE部部长安宇发表《慢与快,华为云SRE确定性运维变革的思考与实践》主题演讲,与与会者分享数字化转型中运维作为变革助推器的思考与实践。
华为云SRE部部长安宇发表主题演讲
运维变革是数字化转型的助推器,运维从成本部门成为生产力部门
在政府/企业IT业务深度数字化的过程中,业务的可用性压力骤然提升,稳定可靠是最基本的“生命线”,运维人时刻保持着“战战兢兢、如履薄冰”的心态。数字化转型中,软硬件迭代加速,数字化业务从“慢”节奏向“快”节奏转型,运维既要保“稳”,又要能“快”,传统IT的运维工作模式已无法满足,这也就意味着运维模式变革势在必行。
华为云在过去几年中高速发展,业务量得到上千倍的增长,经历了上述“慢”向“快”的转变,这促使着运维作出变革。华为云总结出的“确定性运维”能力体系,正是运维变革的一个样例。在这次变革中,运维团队完成了从“消防员”向“建构师”的转型,通过“确定性”的各项能力,支撑业务团队既“快”又“稳”地发展业务。同时,这也是一次将运维团队从成本部门转化为生产力部门的实践,让运维变革成为数字化转型的加速器。
质量文化是基础、高可用架构是前提、动态风险治理是保障、智能运维是未来,是“确定性运维”的核心要义
华为云SRE团队主要负责维护华为全球所有的基础设施,覆盖对外的商业服务以及华为公司内部的流程IT、终端云等不同业务。华为云SRE提出的“确定性运维”能力体系,是面向云时代的高效能、高质量的运维体系。是“高可用架构”、“动态风险治理”、“高度智能运维框架”形成的一个有机结合体,覆盖了从产品设计、开发到部署上线,再到日常运行的生命周期全过程。通过“确定性运维”,华为云将业务高速发展带来的“不确定性”变成SLO的“确定性”。确定性运维是一个完整的体系,本次安宇针对文化和可信两个领域展开介绍。
华为云“确定性运维”能力体系介绍
华为云SRE转型的实践,在文化和作业可信领域的思考和实践
确定性运维全员高质量文化是运维变革的基础。华为云树立质量优先的意识,在内部设立了安全生产委员会和质量军规等,自上而下推行质量文化,不仅仅是运维团队,还包括架构与开发在内的所有技术团队,都通过技术方案去实现产品的高质量,用软件工程的方法实现质量的管理能力。对质量领导力的认同以及运维体系的定位,是企业开展“确定性运维”变革的一个基础。
建立系统级的“作业可信”的管理模型。华为云SRE通过作业可信的九个特征(如可用、连续、Safety、隐私、透明、合规、Security、可靠、回溯),使能产业、客户和伙伴风险消减,助力业务价值实现,通过软件工程构建在作业环节的质量工程能力。
“运维体系”质量工程能力的四层防线。体现在人员准入、可信嵌入标准化作业、异常识别和处置、爆炸半径最小化。华为云SRE通过作业可信质量体系,消减人因作业风险,支持海量变更,把不可靠的因素和人因的风险降到最低,通过爆炸半径、发生概率和恢复能力三个方面的风控要素,提供了质量防护能力,帮助运维作业人员减少操作,端到端地提升运维人员质量工程能力,系统化地去提升作业可信的能力。
共建“确定性运维”,加速千行百业快速转型,提质增效
华为云持续在运维领域开展变革以支撑业务高速增长, 大致可以分为三个阶段。第一阶段:2017年至2019年启动变革,构建组织,吸收业界先进经验、夯实产品能力和组织人员能力;第二阶段:2020年至2022年,华为云SRE全面构建运维质量工程能力,初步形成了确定性运维体系。当前,华为云SRE正处于第三阶段,持续深耕智能化,构建高度确定性运维能力。
基于内部实践的“确定性运维”能力体系,华为云SRE与业界同行积极开展互动,吸取各家云上客户意见,梳理出一套能力成熟度模型,给更多处于数字化转型期的企业参考,梳理和识别痛点/短板,制定自身的运维变革目标和转型措施。华为云SRE也搭建了经验交流分享的平台,将不同行业、不同规模、不同数字化转型阶段的企业的经验进行分享,也会逐渐把内部的能力总结服务化,为伙伴和客户提供服务,提升转型效率。
数字化时代,IT运维迎来新变革,企业面临的挑战越来越多。华为云SRE基于自身实践的经验,保障云上业务稳定可靠,和客户、业界伙伴一起,开展运维变革,加速千行百业数字化转型,提质增效,让运维真正成为业务发展加速器,共同构建“确定”的数字世界。