百度主题研究项目破解垃圾数据困局-互联网专区

百度主题研究项目破解垃圾数据困局

作者：赖小婷编辑：赖小婷 2014-01-08 15:20 来源：中新�

　　百度众测平台作为国内最大的众包平台，从2011年上线之初就备受关注。在这里，互联网用户能够第一时间体验到百度的新产品，并且能够根据自己的使用体验，对百度的新产品提出改进建议，以及各种bug反馈，以便于百度公司及时地改善产品质量。它是众包模式在百度公司软件和产品测试以及大数据处理上层面的延伸，也是百度与众多优秀的测试者沟通交流，分享测试心得的阵地。目前，百度众测主要包括快速判断、产品找茬、问卷调查、实地调研、APP评测类等五类项目。

　　百度众测平台上线后，随着注册用户和平台发布的任务量急剧增加，一些问题逐渐暴露出来。“众所周知，在所有众包技术的实际应用中，往往存在大量作弊用户。这些作弊用户的存在一方面严重影响测试结果的准确性和可信性;另一方面，也增加不必要的测试成本。百度众测平台也存在这种情况，这是我们必须解决的问题。” 百度质量部的技术经理施佳樑指出，尽管众测平台采用了一些措施防止作弊用户，但以平台管理人员专家知识为基础的定性检测方法仍然难以满足日益增长的测试需求。

　　在第二届百度开放研究计划之IT主题项目研究中，百度众测平台发布了“如何基于用户的兴趣和能力分析进行更好的众测分配”这一项目课题，希望借助和高校人才的合作，更好的解决上述问题。“新加坡南洋理工大学的宋恒杰老师在研究分析用户行为方面很有建树，而我们在这方面比较缺乏经验，所以我们在第二届百度开放研究计划这个项目中，选择了与宋老师合作，共同致力于解决百度众测平台现在面临的问题。”施佳樑认为，宋老师是他们比较理想的合作伙伴。

　　据施佳樑介绍，“如何基于用户的兴趣和能力分析进行更好的众测分配”这一项目的主要参与人员是百度质量部的李明、陈丹、李伟、王安，以及新加坡南洋理工大学的宋恒杰老师、韩小刚和陈思远。韩小刚与陈思远是宋老师指导的研究生，在该项目进行时，他们作为实习生来到百度，与百度质量部的员工一起进行项目研究。

　　“我们的项目内容很明确，就是以众测平台的用户行为数据为主要数据源，在定量分析的基础上，通过相应的数学变化与处理，提取出一系列量化反作弊准则，并以此为依据、开发相应的反作弊系统。”作为该项目的主要参与人员，百度高级工程师李明，对项目有着全面的认知。

　　李明表示，建立反作弊系统对百度众测而言，意义重大。“百度众测平台充分利用大量在线用户的测试能力与资源，以期在短时间内完成大工作量的产品体验与测试。我们的主要目的是为软件或者产品生成高效、准确、可信的测试结果。可以由于作弊用户的存在，导致很多项目中生成了大量的垃圾数据，严重的影响了测试结果的有效性和准确性;同时，对于那些真正有能力、有兴趣的认真用户而言，作弊用户的存在打击了他们答题的积极性，最终导致他们加入作弊的行列或者离开众测平台，如果不对作弊用户进行惩罚，剔除垃圾数据，将对众测平台的发展造成不良影响。”

　　在该项目团队的共同努力下，他们完成了构建众测平台反作弊系统的工作，并将其上线应用。目前，反作弊系统可对在线项目、已完成项目和已关闭项目进行实时监控，近似实时检测作弊用户。“目前反作弊系统已经上线三个月左右，从其应用结果来看，我们的研究成果比较有效，该方法有效提高了众测平台中作弊用户检测的效率与准确性。”能够取得如此成绩，足以说明该项目的价值，李明对此十分兴奋。“我们这个项目的最大意义，就是去伪存真，提升了测试结果的质量，能够为产品线返回最有价值的数据和信息。”

　　据了解，该项的研究成果还受到了百度高层的积极评价。据施佳樑介绍，该项目取得的研究成果，不仅激励了项目团队的所有成员，也受到了百度质量部的副总监高亮的肯定。作为百度众测原负责人，高亮一直关注着众测平台的发展，在该项目进行之初，就给予了大量的支持。他认为该项目的成果对百度众测平台的发展意义非凡，尤其是作用于数据标注方面的反作弊系统，更具价值。施佳樑对此补充表示，截止至目前，共约20万用户通过百度众测平台完成了对3亿张图片和8000万条文本、网页、搜索结果等数据的标注，平均每天有2000位标注员在线提供数据处理服务。

　　此外，基于该项目的研究成果，还形成了重要的学术成果。李明表示，以该项目为基础的研究成果已经被数据挖掘优异学术会议(ICDM 2013)和学术期刊ACM Trans. WEB录用。其余相关研究成果在进一步整理、完善后，将会投往人工智能/数据挖掘优异学术会议AAAI’14 和KDD’14，将他们的研究成果在行业内进行分享。

　　“通过反作弊系统处理，百度众测对数据处理的质量大大提升，有效地促进了公司现有产品的完善，同时帮助产品线完成创新型产品的研发和改进。例如在与百度深度学习研究院的合作中，众测平台为其提供了包括图像分数据类、文字识别数据在内的6500万标注数据，结合深度学习研究院开发的基础模块，在图像自动分类方面，可识别类目数从9千增加到4万，远远超越了竞品;在光学文字识别方面，将深度学习技术和标注数据结合，百度最终完成了自主研发，拥有了自己OCR(光学文字识别)技术和产品。目前，图像自动分类已经被用于百度读图成诗、云相册图片搜索、图片搜索和百度识图等产品中，而光学文字识别则在百度百科、百度贴吧等产品中得到应用，百度贴吧的作弊识别准确率提升4%，召回率提升14%，垃圾信息被大量剔除，数据的有效性能够得到保证。”施佳樑为反作弊系统的应用前景感到振奋，同时也对百度众测平台的发展深具信心。“百度众测平台所做的工作具有战略意义，能够助力大数据处理和深度学习技术的发展，符合公司的发展方向。通过反作弊系统，保证了数据的有效性，所以在明年的业务发展规划中，我们希望百度众测平台不仅为百度内部提供服务，还可以为第三方提供数据处理服务。”

　　“事实上，我们此次项目不仅完成了反作弊系统构建，还研究了智能推荐系统，但是由于时间关系，智能推荐系统并没有完全成形，鉴于此次与南洋理工大学的成功合作，明年我们将会在第三届百度IT主题研究项目中继续开展合作，深化研究成果，共同研究百度众测平台的智能推荐系统，让百度众测平台更有趣和实用。”对百度众测平台的发展，李明和施佳樑同样深具信心，一幅发展宏图仿佛已经展现在了他们眼前。

关注我们