互联网 频道

百度松果计划项目提升知识图谱构建效率

  近日,百度“松果计划”启动了一个全新的合作项目,该项目将再次与中国科学院计算技术研究所联手,共同研究 “面向全网数据的知识图谱构建方法研究” 的技术课题。2015年百度互联网数据研发部就已与中科院计算所共同合作合作了名为“建立全自动知识数据生产系统模型的雏形”的松果项目,该项目支持精准问答下的人物职位问答、娱乐人物关系问答以及图谱中间页人物关系图谱的生成。此次与中科院的再度合作将在此基础上进行深入研究进一步扩大与提高知识图谱的应用范围与能力。

  

  大数据时代,“如何高效提取知识数据”亟待解决

  如何获得丰富的数据对于百度这种大体量的互联网公司早已不是问题,现在亟待解决的问题变成了如何在庞大的数据中高效提取丰富的实体知识。

  对知识类数据的需求,大多数互联网产品都有,但目前,大多数互联网产品都有知识类数据的需求,但依据当前的技术,知识数据的提取较多地依赖于人工干预,造成了大量的人力、财力及时间等方面的消耗,同时在数据的挖掘源方面也仅局限于少量的网站。相对于千亿级别的中文网页如此庞大的数据量可以说是相差甚远。不仅如此,每天网页上的信息会持续更新,对这些新知识的提取与收录是知识生产系统面临的挑战。

  正是基于对高效提取知识数据的需求,由百度互联网数据研发部(Web Data)主导,与国内数据挖掘领域顶尖的顶尖团队——中国科学院计算技术研究所正式展开“面向全网数据的知识图谱构建方法研究”的“松果计划”专项研究合作。本次研究课题将探索构建一个高效的知识数据全自动生产系统模型来优化处理知识数据,完成大规模数据生产,从而将单领域知识数据生产速度从月级降到周级,同时可以面向全网网页库产出亿级别可用的知识数据。

  百度“松果计划”再次牵手中科院

  百度与中科院合作已非首次,从百度开放研究计划第一届起,中科院就与百度有了深度合作。2015年,百度“松果计划”正式启动,旨在通过与学术界合作,开展有价值研究,产生更多有影响力的技术成果,推动科技进步与社会发展。百度与中科院的校企合作也顺势迈向了全新的高度,去年两者合作建立了全自动知识数据生产系统模型的雏形,已支持精准问答下的人物职位问答、娱乐人物关系问答以及图谱中间页人物关系图谱的生成。

  本次合作研究输出的知识数据未来将可以直接运用于百度的产品中,例如百度搜索、度秘等。对这些产品将有三方面的提升,首先会扩大搜索信息覆盖量,支持精准问答下的直接回答,为用户直接提供搜索结果,使得搜索效率大大提升;其次,支持模糊类搜索query,使搜索过程中的交互体验更加自然顺畅,例如将提升用户和度秘之间的交流体验;最后,使搜索结果的摘要展现形式将更加丰富多样。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
0
相关文章