出于对业务连续性和数据安全性的考虑,越来越多的用户选择建设分布式数据中心来作为灾备节点。而随着分布式数据中心越来越多,企业及其运维人员也面临越来越多的难题:
缺乏统一的运维管理
分布式数据中心没有专业运维人员,难以运维包含服务器、桌面等复杂的IT系统;IT建设“各自为政”,缺乏统一的管理规划,运维管理成本高;办公终端部署在不同地理位置,维护周期长,造成业务中断,影响办公效率。
传统组网方式运维复杂
分布式数据中心网络设备远程运维复杂,难以统一策略下发,广域网链路、应用难以可视化监控;广域网安全流量无法可视分析,分支容易被潜伏威胁当做跳板攻击总部,且难以发现和处置。
缺乏统一的业务支撑架构
分布式数据中心业务和数据之间存在孤岛,导致其与总部数据中心无法形成业务协同和数据协同;非云化数据中心更新难,不能有效保障应用、漏洞、补丁的上传下达。
日益严重的安全威胁
分布式数据中心缺乏员工准入规则,导致其成为全网安全的薄弱点;如果能构建统一安全入口,就可以降低数据丢失风险。
这些问题的存在,要求分布式数据中心要建立起一套统一的、全栈的、运维管理体系。
信服云托管云以稳定的通信网、集约高效的管理服务信息系统和高科技IT设施设备为技术核心,以信息感知、趋势预测、资源共享为应用重点,结合互联网、大数据技术,集中海量数据跨行业、跨部门高度共享,实现对分布式数据中心业务透彻全面、实时智能的感知或预测趋势。通过统一管理、统一运维,以及标准化的运维流程和智能化的监控与事件分析,提高运维效率、降低运维成本。
综合考虑网络安全等级保护要求和业务应用的实际需求,提供事前防御、事中控制、事后审计全方位保障,提高信息安全防护能力。同时提供可靠的数据备份与业务容灾机制,保障业务连续性。
信服云托管云采用超融合架构,构建分布式云化资源池,融合计算、存储、网络基础设施资源,承载云计算管理平台以提供对的分支节点监控、管理及运维服务。
对于核心业务承载需求,云化资源池可以实现平滑的线性扩容,为业务系统提供充足的IaaS层资源,同时结合数据库管理平台、大数据服务、桌面云等提供丰富的PaaS层服务。
托管云SCC管理中心统一运维、远程升级乃至应用推送,副中心无需专业IT人员,采用自动化的手段,降低总部人员对大量边缘节点的运维的难度。分支节点开箱即用,新业务上线时间缩短70%,日常运维效率提升50%以上。
托管云智能运维平台融合AIOps智能算法与专家规则,覆盖托管云62%+故障问题,实现了各类网络、硬件可靠性、存储、计算卡慢问题的检测与分析能力。
可以提前感知各类资源使用异常,实现了多项基于AI预测的调度优化能力,用于避免故障与卡慢问题的发生。
还可以提前预测虚拟网络发生性能瓶颈和资源不足的风险,预测租户弹性EIP的流量大小并推荐带宽,辅助SRE提前执行带宽规划业务,避免由于EIP资源和带宽不足导致发生无法新开租户或租户业务卡顿的故障。
一、OneAgent能力
可观测性是运维的基础,它是通过检查其输出来衡量系统内部状态的能⼒。为了实现系统的可观测性,需要使用多个采集器,造成资源浪费。
虽然国内外都有大量的数据采集器,但大多数采集能力单一,比如 Telegraf 仅支持指标,Filebeat只服务日志,OpenTelemetry 的 Collector 对非云原生的组件并不友好,需要大量安装 Exporter 插件。
Octopus是深信服ACMP&创新研究院自研的可观测数据采集Agent,拥有的轻量级、高性能、自动化配置等诸多生产级别特性,可以署于物理机、虚拟机、Kubernetes等多种环境中来采集数据,真正实现了一体化各种环境(传统环境,云/云原生)统一数据采集,一个进程或 Daemonset Pod 就可以实现全方位的数据采集,配置体验良好,可扩展性强。
二、资源预测和处置推荐
随着用户业务的发展,托管云上的计算、存储等资源都需要进行相应的优化调整。资源的配置优化需要满足业务的两个要求:足够的资源,保证业务的稳定性;尽可能节约成本,但目前的难题是:无法提前感知计算、存储资源的未来风险;无法获得计算、存储资源未来风险的处置建议;无法对闲置资源提前预估,因而造成IT成本上升。
“资源预测”功能在增加用户对计算、存储资源未来风险感知能力的同时,提供了明确的资源配置建议,降低因资源不足导致的故障发生频率,提前规避因业务不足导致的业务中断或资源过剩造成成本上升的问题。
↑ 资源预测功能界面展示
另外,当资源过剩时,也可基于智能算法对闲置虚拟机进行识别,回收对应的资源池或服务器资源。以检测深信服的客户业务系统虚拟机4K+为例,经虚拟机闲置识别检测,发现并处置(含缩容和关机)130+台,0负面反馈。
↑ 闲置虚拟机识别功能界面展示
三、资源竞争感知与负载均衡能力
随着虚拟机的新建、开关机及其自身负载的变化,集群主机间总是面临负载不均问题,从而导致资源竞争,业务性能受到严重影响。
准确、及时甚至提前感知资源竞争,采取高效的负载均衡策略,可为核心业务提供长期稳定的性能保障。
为解决上述问题,该平台实现了DRS:资源竞争感知与附在均衡能力。
引入多项核心指标分析资源竞争与业务真实资源需求,基于负载变化预测结果搜索非常好的负载均衡策略。基于AI预测的DRS可快速甚至提前感知资源竞争,及时进行负载调度,降低业务受到资源竞争影响的时间。基于AI负载变化分析与Cost-Benefit模型的调度策略,可大幅提升单次调度带来的收益,减少业务遭受资源竞争的频率。
↑ 资源竞争告警与负载均衡调度建议展示
以上就是关于分布式数据中心全栈智能运维平台的介绍,本期内容还有信服云托管云运维可控技术负责人Will的视频直播分享,在“深信服科技”公众号可以观看回放。