[中国,上海,2024年9月20日] 在华为全联接大会2024上,华为组织的业界首个计算集群运维专题论坛成功举行。来自河南联通、华为、科大讯飞、黑龙江移动的嘉宾在论坛上发表专题演讲,华为公共开发部CTO黄河先生作开场致辞。论坛以“智能集群运维,点亮最强算力”为主题,与会嘉宾共同探讨和推动计算集群运维产业进步。
近年来AI算力需求爆发,已进入万亿参数时代。AI计算基础设施逐渐从单机走向大规模集群,以满足大模型刚需。大模型训练的基础是依靠集群实际可用算力,对集群的可用性提出了更高的要求。在具备了大规模集群硬件的基础上,通过对计算、网络、存储整个系统统一纳管,对百万个器件进行高效的管理和运维,集群才能够发挥出巨大算力威力,有效满足大型智算业务的进行。
洞见:大模型是一个复杂系统工程,集群有效运维是关键环节
河南联通云网中心副总经理王巍表示,大模型是一个复杂系统工程,涉及数据准备、算力准备、模型训练、调优和部署,其中集群高效运维是关键环节,只有高可用的集群才能确保模型的长期稳定训练。河南联通基于业务实践,正在联合集群运维厂家,从光故障、集群性能劣化感知和集群跨域故障定位切入,通过联创关键技术实现集群高可用目标。依托联通中原数据基地的算力优势,河南联通将持续技术创新,打造全方位AI智算运维框架,构筑中部算力核心高地。
河南联通王巍先生在分论坛现场
解题:华为计算发布iMaster CCAE,释放集群澎湃算力
华为计算CCAE领域总裁鲁驰表示,大集群高复杂度增加系统故障风险,复杂问题定位耗时长,集群可用度亟待提升。华为提出一种运维架构供业界参考。设备厂商通过构筑集群运维系统,向下聚合算力资源,开放标准北向接口,为运营厂商提供高可用算力。运营厂商可以因此聚焦算力应用,建设良好的运管中台,向上承载应用。设备厂商和运营厂商分工合作,有利于实现商业共赢。华为今年HC正式首发iMaster CCAE集群自智引擎,构筑集群确定性运维。通过降低故障次数,减少平均故障恢复时间,实现“极高可用”。通过隐患自动排查、劣化自动感知、故障自动定位隔离,实现“极致运维”。通过开箱即用、周级上线、天级集成,实现“极速交付”。通过能耗可观测、作业-资源联动节能,实现“极致能耗”。iMaster CCAE为业界提高集群作业可用度提供了实用的解决方案。
华为鲁驰先生在分论坛现场
实践:CCAE集群运维助力讯飞星火大模型长稳训练
科大讯飞数据中心首席架构师罗远表示,科大讯飞用自有算力底座“飞星一号”集群支撑星火V4.0训练。在集群日常运维流程中,融入华为CCAE后,有效提升运维智能化水平。讯飞科研平台对接CCAE北向接口,实现随作业运行自动调度,月均使用健康检查300+次,及时发现集群问题,例如对风险光模块进行批量清洗后,光模块闪断问题数量下降70%。借助CCAE故障自动诊断能力,覆盖了AI集群常见软硬件故障,减少故障定位和恢复时间。融合了CCAE的智能运维和调度系统,保障了星火大模型任务长时稳定运行。
科大讯飞罗远先生在分论坛现场
实践:提前布局智能运维,黑龙江移动打造领先的智算集群
黑龙江移动网络管理部政企解决方案经理杜长斌表示,中国移动积极投身算力时代,以算网大脑为中枢加速AI服务一体化能力构建。中国移动智算中心(哈尔滨)节点对内满足九天团队模型自训,对外提供多场景算力服务,为万亿模型训练提供算力底座。在大集群运维上,移动智管平台与CCAE深度对接,辅助移动实现智算集群智能运维。作业前,大规模集群分钟级全栈健康检查,保障作业零隐患稳定运行。发生故障时,训练作业故障分钟级诊断,集群故障定位效率大幅提升。黑龙江移动愿与华为等伙伴,持续合作全面布局智能运维,打造领先的超大规模智算集群。
黑龙江移动杜长斌先生在分论坛现场
众智合力,行将致远!集群运维主题论坛的成功举办为未来更多开放分享与合作提供了契机,将提升集群运维系统整体能力,推动科技创新走向市场,促进计算产业繁荣发展。