互联网 频道

IPCCC长文收录!天翼云科研实力再获国际认可

  近日,由天翼云弹性存储创新实验室撰写的《RESD: High-Performance RDMA-enabled Control Plane for NVMe Shared-Disk Cluster》论文被The 43rd International Performance Computing and Communications Conference (IPCCC 2024) 长文收录。

  IPCCC是高性能系统领域较高水平的国际学术会议,迄今为止已经成功举办42届,在国内外学术界享有较高的声誉和广泛的影响力,也是中国计算机学会CCF推荐的国际会议之一。近两年的论文接收率分别为26%(2023年)、23.9%(2022年)。此次弹性存储创新实验室团队所著论文被收录,代表着天翼云技术创新能力再获业界认可。

  该论文作为天翼云新一代XSSD产品的预研成果,主要探索了共享盘场景下高性能控制平面的实现方案。共享盘是云硬盘产品的一种高级特性,通过将一块云硬盘挂载到多个计算节点以提高客户系统访问的可用性和性能,并基于分布式QoS能力和I/O围栏协议来保证产品的SLO(服务等级目标)和数据一致性。

  然而,基于现有传统TCP网络的共享盘控制平面实现方案不再能满足XSSD产品百万级IOPS和微秒级延时需求,尽管XSSD产品采用的RDMA协议通过协议栈卸载到网卡已降低了通信延迟,但基于传统RPC通信模式的RDMA协议栈仍会给XSSD产品带来不可小觑的性能开销。

  作为云服务国家队,天翼云坚持核心技术自主攻关,针对现有方案的不足,该论文创新性提出了基于One-Sided RDMA技术的NVMe共享盘集群控制平面(a novel RDMA-enabled control plane for NVMe Shared-Disk Cluster,简称RESD)。

  RESD整体架构如图1所示。首先,RESD提出了一种基于分布式令牌桶的QoS架构。通过将令牌桶存储到RESD-Bucket数据结构中,并借助One-Sided RDMA操作实现将所有令牌操作卸载到RDMA网卡(操作如图2所示)。这种方法有效地减少了共享盘的I/O延迟,减轻了服务器负载,并增强了整体系统的可扩展性。

图片 1.png

  图1 RESD系统架构

图片 2.png

  图2 RESD QoS操作流程

  其次,RESD还针对XSSD产品使用的NVMe协议开发了对分布式NVMe PR协议的支持,为共享盘集群提供I/O围栏能力,并通过应用One-Sided RDMA技术,显著减少了延迟。

  此外,该论文中还设计了动态QoS令牌分发算法。该算法通过监控全局令牌消耗率,以调节集群内客户端的令牌获取速度,并从闲置客户端回收未使用的令牌,有效减少令牌浪费,提高共享盘集群的吞吐量。

  该论文的实验表明,RESD系统在操作延迟、IOPS、QoS均衡性等多个方面均表现优异,且在不同分布的测试数据集上都具有稳定性能。

  科技创新是发展新质生产力的核心要素。面向未来,天翼云将秉持央企使命责任,发挥数字中国建设主力军作用,持续推进云存储等云计算技术攻关,筑牢国云智算底座,以科技创新引领产业发展。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
0
相关文章