互联网 频道

昇腾大规模跨节点专家并行(大EP)集群推理方案之动态均衡技术

  DeepSeek开源周里发布的大规模跨节点专家并行(简称“大EP”),揭开了推理服务如何提高吞吐、降低时延的技术秘诀。大EP能实现接近545%的成本降低,但落地过程中仍面临诸如“专家动态均衡”和“通信时延”等问题。如何优化负载均衡、降低通信开销、并充分利用资源成为技术难点,昇腾为此提供了“静态专家负载均衡 + 专家亲和部署”的解决方案。

  “大EP”推理中的挑战

  1、负载不均衡

  MoE模型本身不同专家网络的激活次数存在显著差异。部分专家网络可能需要处理海量数据,而另一些则相对“轻松”,这导致部分NPU过载,部分NPU则处于闲置状态,影响推理效率。

  图1:专家热度(ceval数据集)

  2、资源利用率不足

  由于缺乏有效利用专家网络之间的亲和性部署的策略,在传统的部署方式下,NPU之间的协作效率较低,整体资源浪费现象严重。

  图2:专家亲和性

  昇腾的三大创新策略

  针对上述挑战,昇腾通过分层部署、卡间调整以及层间优化等策略,有效解决了“大EP”场景下的负载不均衡、通信开销高、资源利用率不足等问题。

  1、热点专家负载均衡

  针对不同专家网络的激活次数存在显著差异,昇腾通过以下措施,不仅降低了部分NPU的负担,还显著减少了跨卡、跨节点通信的需求:

  采用离线采集数据的方式,统计各层专家的激活次数,识别出热点专家。

  对于负载过重的专家,通过冗余策略进行拆分,降低单点压力。

  使用贪心算法将专家按权重分配到不同NPU卡上,确保每张卡上的专家负载均衡。

  图3:计算负载均衡

  2、层内专家亲和部署

  针对同一层内的专家网络之间具有较高的协作性,昇腾通过“卡间调整 + 卡内调整”两阶段优化策略,确保高亲和性的专家网络尽可能部署在同一张卡或同一个节点上,显著降低了跨卡、跨节点通信的开销,提升了系统的整体性能。

  卡间调整:以整卡为粒度,计算卡与卡之间的亲和性,选择n/2对亲和性最差的卡进行节点分配。

  图4:层内专家亲和部署:卡间调整

  卡内调整:在卡间调整的基础上,进一步优化卡内专家网络的部署策略。通过交换低亲和性专家网络的方式,提升集群的整体亲和性。

  图5:层内专家亲和部署:卡内调整

  3、层间专家亲和部署

  不同层之间的专家网络也存在一定的协作关系。昇腾通过基于节点粒度的优化策略,确保具有高亲和性的跨层专家网络尽可能部署在同一节点上。这种方式进一步降低了跨节点通信的需求,并提升了系统的响应速度。

  图6:层间专家亲和部署:节点间调整

  显著收益和效果

  提升系统15%吞吐性能:每次前向过程中,各层专家网络的token数分布更加均匀,避免了部分NPU过载,降低了端到端延迟,提升了系统的稳定性。

  降低30%通信开销:在大规模集群中,跨卡、跨节点通信的时间占比显著减少。全面提升系统性能,为模型优化提供了更大的空间。

  资源利用率提升20%:充分利用NPU之间的亲和性关系,资源利用率提升了约20%。(在传统的部署方式下,资源浪费可能超过40%)。

  未来思考与计划

  算法优化:针对分布式系统中负载变化的动态特性,探索更加灵活的负载均衡策略,结合在线监测数据,实时调整部署方案。

  软硬协同:充分利用昇腾的硬件特点,进一步优化专家并行任务的资源调度算法,提升系统的整体性能。

  场景适配:针对不同的应用场景,定制化的负载均衡和亲和部署策略,使方案更加普适,能满足不同客户的实际需求。

  昇腾将继续以技术创新为核心驱动力,探索更加高效的算法优化策略,帮助客户在AI领域实现更大的突破。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
0
相关文章