近日,百度“松果计划”启动全新研究课题——“基于深度学习的多文档摘要技术”,该课题由百度研究院大数据实验室与中国科学院自动化研究所共同研究,合作计划构架一个面向肿瘤-基因文献的多文档摘要系统。通过整合百度与中科院的资源优势,从大量的学术文献中挖掘肿瘤-基因之间的关联,帮助生物学家提出新的实验假设和实验建议,提高人们对生物医学现象的认识,为医学工作者的肿瘤诊断与治疗提供支持。

随着personal medicine的发展,越来越多的普通大众及医生、学者急需相关知识数据库来解读自己或患者的高通量测序数据,高通量测序数据分析会得到成千上百的基因突变位点,而这些突变位点背后隐藏的健康信息需要知识数据库来注释。本次“基于深度学习的多文档摘要技术”课题将研究从大量的学术文献中挖掘出肿瘤-基因之间的关联关系,以便生物学家提出新的实验假设和实验建议,从而提高人们对生物医学现象的认识,为医学工作者的肿瘤诊断与治疗提供支持。
然而,现阶段面向摘要的深度学习方法在学术界刚刚起步,同时相对缺乏关于深度学习技术应用于摘要提取的经验。学界基于概率生成的多文档摘要技术模型,消耗的CPU资源很高,而且概率模型的参数较多,参数的不同取值对摘要生成的质量影响非常大,严重制约模型的可用性,而百度与中科院开展此次合作的目的正是为了探索研究此类问题的解决之道。
中科院目前已经与百度BDL大规模机器学习团队有着密切合作,相关合作论文已被数据挖掘优异期刊IEEE TKDE 和ACM TKDD接受。此外中科院在深度学习和机器学习方面极具优势,培养了一大批优秀的专业人才。而百度更是长期关注人才的培养和挖掘,在与中科院的多次合作中实现双方优势互补,整合双方的技术资源,培养挖掘出更具可塑性的优秀技术人才。