如何让搜索结果变成可视化的网络图谱?这也许是未来搜索引擎需要回答的重要问题。基于这样的考虑,在今年5月举行的百度、西安交大大数据竞赛上,出题组抛出了以“挖掘核心人物关系,构建人物关系网络”的考题。本次比赛基于百度的“知识图谱”技术展开,进而构建知识挖掘系统,选手被要求在任意给定的对象间自动构建该实体的关系网络,,然后对实体进行候选关联实体的分层、排序和截断,最终形成针对该对象的三层关系网络,即该对象的知识图谱。
据本次大赛出题组负责人、百度资深研发工程师牛正雨介绍,知识图谱的应用可以呈现知识发展进程与结构关系的一系列不同图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。“也许在未来某个时候,知识图谱将取代目前的列表式搜索而成为新一代搜索引擎。”
为了使选手们真正体验到大数据知识挖掘的难度和复杂性,百度命题组特别为本次大赛提供了高达十亿条的原始数据,内容涉及目标人物的相关信息和网络集合,堪称本土大数据赛事史上第一。该如何去理解十亿级的语料数据呢?假设一页A4纸有800个字的内容,如果我们一个人一天的阅读量是20页,十亿语料大约需要花费一个人2569年的时间看完。
特别值得一题的是,除了供竞赛使用,百度方面特别表示,这次之所以放出海量数据包,也是希望实现一次业界与学界的资源共享。此次赛题发布的数据不仅可以供比赛使用,也可以继续被选手们应用于非商业目的的学术研究。
多年以来,百度始终致力于与优异高校展开合作。此次与西安交通大学合作举办大数据竞赛,旨在通过与高校的合作在大数据研发领域取得双赢,并在全国高校范围内挖掘、发现大数据尖端人才。同时,本次竞赛只是百度-西交大这一次强强联合的开端,在后续的合作中,百度将为西安交大数学实验班、少年班、工科试验班的学生提供客座教授和企业导师进行专业指导,并开放非常先进的大数据内容与技术,定期发布课题供突出人才实践研究;与此同时,西安交大则在百度自有在线教育平台——百度传课设立专属频道,为百度的大数据开发提供学术支持。
作为中国聚合互联网信息数据最多的平台,百度将持续开发大数据的更多价值。大数据的创新应用将促进各个行业升级,改变生活;在搜索领域,知识实体间错综复杂的关系正在被知识图谱破解。百度根据网民需求推出知识图谱,同时通过校企合作办赛的方式,深入挖掘数据分析人才,将为在未来为构建三维知识网络打下基础。