互联网 频道

白山云:“DOLFIN”一秒钟之内的大数据

  互联网的高速发展使终端用户对网络内容加载速度的要求越来越高,互联网已经进入秒级服务和“零容忍”的时代。在这样的大环境下,如何实现秒级无故障系统和有效控制成本解决业务数据黑盒问题是非常重要的工作,而实现这些目标的核心是一个“智能大脑”,引导用户到最近节点进行访问、告诉系统怎样无缝容错、智能判定最优性价比、并关联所有的业务数据,形成数据链帮助做运营决策。这就是白山云“DOLFIN”技术所在做的事情。

  11月20日上午,在GITC2015全球互联网技术大会运维专场,来自白山云的产品架构师符立佳正式向所有来宾详细讲解了白山云四大技术创新之一——“DOLFIN”,能让客户享受更高性价比服务的智能调度系统,能够在海量大数据业务下让系统和资源发挥更大效能。

  松耦合与去中心架构

  “DOLFIN”从架构上来看是个分层的松耦合系统,每层之间与每层中不同程序或插件之间都有标准的词库和解析器,保证层级之间与同层程序之间通讯畅通。从数据流上来看,探测层会收集调度所需数据,存储到数据层;数据层会存储动态探测数据及静态配置数据;计算层程序获取数据层计算数据后,将标准格式的配置文件(全量/增量)通过翻译层的翻译程序传输给调度server,由调度server完成调动动作。符立佳在会中解释道:“为了达到连接所有的目标,我们将系统设计成核心处理程序+翻译器+字典+模块/插件的形式,如果有新的模块或者插件需要兼容到系统中发挥作用,只需要确认表述方式是否满足已有字典,如果不满足,上传字典映射表后,就可以立刻兼容使用。”

  调度server的边缘化部署形成了全新的去中心架构,成功解决了网络环境逐渐复杂的情况下“Master-Slave”在安全性低,故障处理能力弱,与解析量小时解析速度差的问题,也同时解决了对于“Master-Slave”的各种优化架构中优化单一性带来巨大代价方面的问题。那什么叫做调度server的边缘化?“举例来讲,传统架构ns1-8,全球网民看到的都是相同的调度server IP都是一样的,而在边缘化架构下北京联通LDNS拿到的ns1-8北京联通的,上海电信看到的ns1-8是上海电信的。”符立佳详细说明。

  符立佳进一步强调:“如果实现了边缘化,则系统的处理能力被分散到各个边缘节点,整个调度系统的处理能力提高了很多倍。在此状态下,我们就可以将DNS的TTL设置成0,就算某些LDNS有修改TTL的功能,由于我们有足够的处理能力和效率。在目前这个移动互联时代(目前移动互联网的业务量已经逼近40%-60%),完全可以绕过LDNS环节,利用私有协议或者HTTP DNS,实现实时调度。提高整体性能。”

  基于动态IP库和服务质量的调度

  基于IP和服务可用性的调度,有两个核心逻辑:一个是根据静态区域地址库进行IP定位,一个是静态cache配置表结合可用性探测结果,产生最终cache+区域的服务列表,最终给出解析结果。这两类调度逻辑已经很明显不能满足用户的需求,所以为了解决这个问题,“DOLFIN”将静态地址库变为动态,且在Cache服务性评估上,加入了更多的参考因素。

  在地址库动态化中,“DOLFIN”将地域划分作为基础参考项,根据服务质量,结合客户端IP,LDNS出口IP对应表,做地址库二次划分为虚拟组,代表同一服务质量组的IP。另外,DOLFIN还在每组内部做了1G流量划分,把能代表1G流量的IP分成一组,支持精准性调度。

  在cache服务可用性上,“DOLFIN”添加了多角度的服务质量调度方案,将可用性评价变为全面服务质量、带宽成本与计费模型的调度阀值等条件的综合评定,实现给予最高性价比的调度逻辑。

  DOLFIN带来的效果

  “DOLFIN”会把全网业务划分为若干个虚拟组来进行质量评估,在有效评估各CDN厂商、IDC的服务质量、成本、计费模型和计费数据之后,给出非常好的的调度方案。

  调度方式除了熟知的A记录给出IDC-IP、cname给出IDC-IP、cname给不同的CDN厂商之外,由于“DOLFIN”具备乐高插件特性,还可以将所有资源都加入到大的设备池,都以A记录形式进行调度,使整体服务质量在更小的粒度下进行,提升竞价比。另外,在边缘化部署下,“DOLFIN”还可以通过NS模式把业务切给指定厂商。这样可以省却维护调度服务器的成本。

  除了在性价比调度方面有良好表现外,在系统故障自动处理方便,Dolfin系统也提供强大功能:单台服务器故障,由于边缘化和秒推可以使消息秒级生效,可以将调度时间有3分钟降低至1S;机房服务质量变差时,之前的处理方式往往是运维人员人工发现并调整,需要半小时左右的时间并影响服务效果。“DOLFIN”基于服务质量的调度可以将此时间变为秒级,处理方式都是自动化;DNS服务器出现故障一般是运维最头疼的,需要大量调整和校验工作,而在“DOLFIN”的模式下,由于边缘化结构和对DNS可用性和服务性能监控,可以自动替换掉故障设备。运维只需要上班后集中处理故障设备即可,提高了工作效率;其他情况基于复制配置、最优性价比调度等功能,均可以大幅提高调度效率。

  “在正式业务使用中,“DOLFIN”将调度消耗降低了60%以上,整体服务质量被提升了20%,效果非常显著。”

  在演讲的最后,符立佳提到了“DOLFIN”的一系列标准,包括运维架构标准,运行环境标准,程序设计标准,系统容灾备份管理标准,系统容量管理标准,安全管理标准和监控标准。并且,符立佳表示,“DOLFIN只是白山云四大技术创新的一份子,白山云从创业以来一直崇尚和倡导开放和分享的技术文化,希望将自己的研究成果和主流技术应用经验拿出来分享和讨论,本次只是分享的第一站,后续我们会通过更多的平台分享我们的技术,或者把大家直接请到白山云公司,与大家进行技术交流。”

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
0
相关文章