10月16日,随着百度与西安交通大学共同举办的大数据竞赛的圆满结束,一场关于“数据之大”的热议重回人们的视野。5个月前,由百度公司与西安交通大学联合举办的首届“百度、西交大大数据竞赛”在西安交大成功启动。本次比赛基于百度的“知识图谱”技术展开,进而构建知识挖掘系统。选手被要求在任意给定的对象间自动构建该实体的关系网络,然后对实体进行候选关联实体的分层、排序和截断,最终形成针对该对象的三层关系网络,即该对象的知识图谱。
“50位明星,10亿条语料”数据语料之多,在目前数据挖掘、人工领域的公开竞赛里,可谓最大量级。选手们需要从中挖掘出这50位明星的立方关系,构成网状谱系。从这一点上不难看出,大数据技术的战略意义并不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理,提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
基于海量数据的再加工,首先需要进行数据的挖掘,再通过更合理的算法和更有效的数据分析后,发现大量规律性、且可供使用的大数据信息,以逐步实现数据的自动挖掘。促使海量“大数据”向“有用的数据”的转化。例如这一次的赛题,对于50位明星的内在关系进行逐层挖掘,通过自然语言识别和提取三元组的核心技术,建立知识图谱,从而真正优化相关数据的筛选结果,为搜索带来更多样的可能性与全面的便捷、准确率提升。
除了人物关系,从10亿条大数据中可以提炼的信息还可以涉及到我们生活中衣、食、住、行等等许多方面。因此,在本次百度西交大大数据竞赛中,赛题使用的数据包本身就可称得上是一件学术资源的宝藏。百度方面特别表示,除本次竞赛本身的应用外,出题方之所以将如此大量的数据包投入比赛,也是希望实现业界与学界的资源共享。此次赛题发布的数据不仅可以供比赛使用,也可以继续被选手们应用于非商业目的学术研究。
百度校园品牌部&新兴业务市场部高级总监张高博士
百度校园品牌部&新兴业务市场部高级总监张高博士曾在启动仪式上表示,“双方均是各自领域里的翘楚,我们共同发起的大数据竞赛,由来自百度的大数据科学家和来自西安交大的院士专家组成评审委员会发布赛题,目标是共同打造高校大数据竞赛的知名品牌。”张高博士在启动仪式上曾说到。
因此,对于大数据的挖掘、共享、再研究就显得格外有意义。而这次大数据竞赛只是百度、西交大这一次强强联合的开端,在后续的合作中,百度将为西安交大数学实验班、少年班、工科试验班的学生提供客座教授和企业导师进行专业指导,并开放非常先进的大数据内容与技术,定期发布课题供突出人才实践研究;与此同时,西安交大则在百度自有在线教育平台——百度传课设立专属频道,为百度的大数据开发提供学术支持。