互联网 频道

星图数据:大数据技术在消费领域的应用

  星图数据技术团队的前身是2010年组建于美国加州的BDTAC团队,其核心成员来自于USC和CMU等高校,聚焦于大数据前沿技术及应用。2014年初,星图数据的国内研发团队组建完成,在首席科学家糜万军博士的帮助和指导下,基于BDTAC团队的技术研究和积累,历经数月的本土化和行业化,开发了现在星图数据两个系统的里程碑版,即底层的大数据采集及存储系统iNebula和中台的大数据处理分析引擎WarpEngine,并在此之上逐步研发了针对消费领域的企业云服务产品线。

  iNebula是一套针对互联网海量信息的实时监测和数据获取系统,通过分布式解偶采集和智能解析,从常态监控或定向的web页面中提取结构化数据,并通过动态地址池、智能任务路由、网络环境自适应以及多样化的数据校验及存储技术确保数据获取的完整性和效率。目前iNebula平均每分钟获取的页面数量为50000个以上,每日常态化获取并存储的互联网数据超过3TB。

  中台的大数据处理及分析引擎WarpEngine,主要完成数据的清洗挖掘、QC和标准化、以及建模计算和语义分析。通过应用Hadoop平台上的各项技术以及机器自学习技术,目前WarpEngine每分钟处理的数据超过6000万条。

  星图数据的云服务产品线目前已上线三款产品:D-Matrix、SkyScope及Atom.Power,主要采用主流的LNMP架构来提高产品系统的效率和扩展性,其中数据库主从方式和Redis热数据缓存的应用,使大数据产品在云端服务的承载量级更高、展现速度更快;而数据可视化部分使用了目前主流的Chart图方式,让数据的易用性更强,展现更加生动。

  星图数据创立仅仅数月时间,便被评为了中关村高新企业,公司所有系统及产品均已申请相关国家知识产权认定,其中多款已获国家颁发证书。从起始初期聚焦于前沿大数据技术的自主研发与创新,到目前在行业中的落地应用以及企业云服务的推广,星图数据走出了自己的技术产业化的创新之路。

1
相关文章