11月24日,GCOS全球云原生及开源峰会2023 · 北京站成功举办,天翼云科技有限公司资深技术专家李祥红分享了天翼云智算基础设施平台“云骁”的产品能力及建设实践,为产业加速构建智算基础设施、推动行业智能化发展提供了参考。
今年以来,大模型应用的深入推进为人工智能产业带来新机遇,人工智能产业呈现出应用场景多元化拓展、数据体量爆发式增长等态势,这对支撑大规模智能计算的基础设施提出更高要求。天翼云推出的智算基础设施平台“云骁”,依托天翼分布式架构云底座和海量计算、存储、网络资源,基于天翼云操作系统TeleCloudOS4.0,为用户提供软硬一体的解决方案,可实现高阶算力供给、资源高效利用、多种计算能力服务一站式提供,大幅提升数据加载、训练和推理效率,满足智算、超算、通算多样化算力服务需求。
“云骁”构建了高性能存储与网络服务。在存储方面,“云骁”基于块存储服务、并行文件服务、分布式文件服务以及对象存储服务,为客户提供端到端的存储解决方案。在网络方面,“云骁”提供百GB带宽RDMA无损网络,实现计算节点以及计算存储之间数据的快速传递;支持存算分离高速网络自动化部署以及多租户网络隔离技术,实现数据安全隔离,保障用户数据安全;支持多场景存储访问,满足用户对高速访问并行文件存储、云上对象存储等多种应用场景的综合需求。
整体来看,“云骁”具有算力整合、算力调度加速、算力运营管理等能力。在算力整合方面,“云骁”为模型开发、训练、推理、算力加速、算力运维等场景提供软硬一体解决方案;在算力调度加速方面,实现基于硬件网络的拓扑感知调度、故障感知调度,从而提高通信效率和训练效率,同时通过数据加速、单机计算加速和显存优化、分布式并行加速、通信优化等加速技术,加速AI训练推理效率,降低客户成本;在算力运营管理方面,支持训练和推理过程中的效率分析和优化,提供全面的日志和监控,方便用户运维和全流程观测。
为提升智算服务能力,“云骁”打造了先进的服务架构,可实现微服务拆分,满足用户便捷部署、高可用、负载均衡等需求;具备Region、AZ、集群、多租户等多层级资源管理、供给能力,便于用户调用资源;支持通过Web UI以及API等多样化方式接入,提供个性化接入服务。此外,“云骁”内置全自研任务管理、调度系统,便于用户进行统一管理和调度。其中,自研任务系统兼具多场景、全流程任务管理能力;自研任务控制器支持常用智算任务的编排控制;自研调度器支持多种调度策略,支撑用户便捷化调用智算能力,赋能各类智慧应用建设。
目前,“云骁”已在多个行业场景落地应用,推动企业快速发展。在大模型行业,“云骁”为思必驰提供AI基础设施层服务,赋能思必驰进一步缩短语音识别训练时间周期并降低算力成本。此外,“云骁”还为人工智能研究机构、汽车等客户进行大模型训练和微调,助力降低科研创新成本。