昇腾大规模跨节点专家并行（大EP）集群推理方案之动态均衡技术-互联网专区

昇腾大规模跨节点专家并行（大EP）集群推理方案之动态均衡技术

作者：网络编辑：关关 2025-03-14 10:39

　　DeepSeek开源周里发布的大规模跨节点专家并行（简称“大EP”），揭开了推理服务如何提高吞吐、降低时延的技术秘诀。大EP能实现接近545%的成本降低，但落地过程中仍面临诸如“专家动态均衡”和“通信时延”等问题。如何优化负载均衡、降低通信开销、并充分利用资源成为技术难点，昇腾为此提供了“静态专家负载均衡 + 专家亲和部署”的解决方案。

　　“大EP”推理中的挑战

　　1、负载不均衡

　　MoE模型本身不同专家网络的激活次数存在显著差异。部分专家网络可能需要处理海量数据，而另一些则相对“轻松”，这导致部分NPU过载，部分NPU则处于闲置状态，影响推理效率。

　　图1：专家热度（ceval数据集）

　　2、资源利用率不足

　　由于缺乏有效利用专家网络之间的亲和性部署的策略，在传统的部署方式下，NPU之间的协作效率较低，整体资源浪费现象严重。

　　图2：专家亲和性

　　昇腾的三大创新策略

　　针对上述挑战，昇腾通过分层部署、卡间调整以及层间优化等策略，有效解决了“大EP”场景下的负载不均衡、通信开销高、资源利用率不足等问题。

　　1、热点专家负载均衡

　　针对不同专家网络的激活次数存在显著差异，昇腾通过以下措施，不仅降低了部分NPU的负担，还显著减少了跨卡、跨节点通信的需求：

　　采用离线采集数据的方式，统计各层专家的激活次数，识别出热点专家。

　　对于负载过重的专家，通过冗余策略进行拆分，降低单点压力。

　　使用贪心算法将专家按权重分配到不同NPU卡上，确保每张卡上的专家负载均衡。

　　图3：计算负载均衡

　　2、层内专家亲和部署

　　针对同一层内的专家网络之间具有较高的协作性，昇腾通过“卡间调整 + 卡内调整”两阶段优化策略，确保高亲和性的专家网络尽可能部署在同一张卡或同一个节点上，显著降低了跨卡、跨节点通信的开销，提升了系统的整体性能。

　　卡间调整：以整卡为粒度，计算卡与卡之间的亲和性，选择n/2对亲和性最差的卡进行节点分配。

　　图4：层内专家亲和部署：卡间调整

　　卡内调整：在卡间调整的基础上，进一步优化卡内专家网络的部署策略。通过交换低亲和性专家网络的方式，提升集群的整体亲和性。

　　图5：层内专家亲和部署：卡内调整

　　3、层间专家亲和部署

　　不同层之间的专家网络也存在一定的协作关系。昇腾通过基于节点粒度的优化策略，确保具有高亲和性的跨层专家网络尽可能部署在同一节点上。这种方式进一步降低了跨节点通信的需求，并提升了系统的响应速度。

　　图6：层间专家亲和部署：节点间调整

　　显著收益和效果

　　提升系统15%吞吐性能：每次前向过程中，各层专家网络的token数分布更加均匀，避免了部分NPU过载，降低了端到端延迟，提升了系统的稳定性。

　　降低30%通信开销：在大规模集群中，跨卡、跨节点通信的时间占比显著减少。全面提升系统性能，为模型优化提供了更大的空间。

　　资源利用率提升20%：充分利用NPU之间的亲和性关系，资源利用率提升了约20%。（在传统的部署方式下，资源浪费可能超过40%）。

　　未来思考与计划

　　算法优化：针对分布式系统中负载变化的动态特性，探索更加灵活的负载均衡策略，结合在线监测数据，实时调整部署方案。

　　软硬协同：充分利用昇腾的硬件特点，进一步优化专家并行任务的资源调度算法，提升系统的整体性能。

　　场景适配：针对不同的应用场景，定制化的负载均衡和亲和部署策略，使方案更加普适，能满足不同客户的实际需求。

　　昇腾将继续以技术创新为核心驱动力，探索更加高效的算法优化策略，帮助客户在AI领域实现更大的突破。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

关注我们