你一定知道一个娱乐记者的工作性质:扒一扒明星的当下关系,再找一找明星的前尘往事……没错,娱记就是一个专门搜集明星小消息的职业。那极客呢?如果你依然觉得他们只是没日没夜对着屏幕跑代码的“程序员”,那么你就真的OUT啦!关羽和谁是同乡?孙悟空的老家在哪里?这些连娱记都回答不出的“明星”往事,百度-西交大大数据竞赛的参赛选手们却可以帮你找到答案。
极客几时变成了眼观六路的娱记?其实这一切只源于10月刚刚成功落幕的“百度、西交大大数据竞赛”赛题:为了深入考察参赛者的知识挖掘能力,出题组抛出了以“挖掘核心人物关系,构建人物关系网络”的考题。本次比赛基于百度的“知识图谱”技术展开,进而构建知识挖掘系统,选手被要求在50个给定的明星人物间自动构建该明星的关系网络,然后对候选关联实体进行分层、排序和截断,最终形成针对该对象的三层关系网络,即该对象的知识图谱。
什么是三层关系?举例来说,假如给定对象为孙悟空,那么利用知识挖掘技术,选手可以发现知名艺人汪涵与孙悟空是江苏同乡,此为第一层关系;进而发掘汪涵与何炅是同事,此为第二层关系,依此类推,以海量大数据作为资源,任何蛛丝马迹也逃不过“码农”们的眼睛,明星之间的关系网络就源源不断的飞到“码农”的碗里来啦!
如此好玩儿又有趣的赛题背后其实蕴含着极其复杂的技术应用,“这次的赛题主要用到了知识挖掘和提取三元组的技术。”大赛出题组成员,百度BDL资深研发工程师牛正雨表示,“基于大数据的知识图谱建构是百度未来战略“连接人与服务”的重点技术,目前在搜索技术应用领域,不仅人物关系的搜索需求旺盛,娱乐、旅游等领域同样也是需求的热门。本次赛题的超大量数据对于还处于学生阶段的选手们来说还是很有挑战性的。”
尤其值得一提的是,为了使选手们“玩儿的过瘾”,在本次大数据竞赛上,百度出题组特别放出了高达十亿条的天量数据包供选手使用,堪称行业竞赛最大容量。除了供竞赛使用之外,百度方面特别表示,这次之所以放出天量数据包,也是希望实现一次业界与学界的资源共享。此次赛题发布的数据不仅可以供比赛使用,也可以继续被选手们应用于非商业目的学术研究。
多年以来,百度始终重视与高校间的协作研发与人才共同培养。今年4月,百度公司曾与西安交通大学签署战略合作框架协议,双方确立了联建设大数据人才创新平台的计划。此次“百度、西交大大数据竞赛”是百度和西安交通大学大数据人才创新平台计划的一个组成部分,也是其中最早得到实践的一个子项目。按照计划,百度还将为西安交通大学数学实验班、少年班、工科试验班的学生提供客座教授和企业导师进行专业指导,开放非常先进的大数据内容与技术,并定期发布课题供突出人才实践研究;西安交大则在百度自有慕课平台——百度传课设立专属频道,为百度的大数据开发提供学术支持。