互联网 频道

搜狗搜索大开放输出12306验证码识别术

    目前,12306网站已开始发售除夕及返程车票,春运抢票进入冲刺期。虽然有验证码难以辨认、火车票“秒光”、黄牛搅局等重重困难,但家是一定要回的。日前,搜狗浏览器、QQ浏览器等应用相继推出抢票功能,“一键抢票”让春运买票这件事变得轻松简单,而助力这些“抢票神器”解决抢票关键问题,订票成功的技术支持,正是搜狗搜索响应“大开放”战略,输出给合作伙伴的“图像验证码识别解决方案”。

搜狗搜索
(12306验证码示意图)

    此前,搜狗CEO王小川在参加2015中国企业领袖年会时表示,“大开放”是互联网未来发展的重要方向之一,封闭和创新是一个硬币的两面,封闭会促发创新;而当一个公司创新力不足时,又需要用一种新的方式提高效率走向开放。搜狗将以开放的姿态打破“围墙”,输出技术与更多优质的互联网公司合作,提升资源整合的效率。

    此次搜狗搜索开放12306验证码识别技术,也是继搜狗战略投资知乎,在资本和产品、技术层面深度合作后,再一次践行王小川的“大开放”战略,通过在搜狗浏览器、QQ浏览器等产品上应用“图像验证码识别解决方案”,为一键抢票功能实现解决关键问题,有效提升浏览器抢票功能的效率,惠及广大用户。

    一款好的抢票软件,往往能让春运买票这件事变得轻松简单。就算今年的验证码再“变态”,打败了99%的人,搜狗、QQ浏览器抢票专版可以让你成为那其余的1%,输入账号密码,自动刷验证码功能可直达购票界面。而购票第一关的打通,正是应用了搜狗搜索开放的“图像验证码识别解决方案”。凭借搜狗深厚的识图搜索技术积累,和强大的大数据处理能力,该方案打出了“OCR技术+图像分类技术”组合拳,对图像匹配验证码的识别正确率可达99%,并能在0.3秒内可极速完成识别。

    事实上,想要在仅仅0.3秒内完成验证码识别,是一项非常具有难度的技术挑战,需要完成两次技术“攻关”和多项技术组合应用:

    首先,要正确识别12306验证码,首先要读懂问题中的文字,这就需要采用OCR技术,即光学字符识别技术。OCR识别的步骤可以分为两步:首先是文本检测(Text detection),将文字从图片中提取出来;然后,对文本进行识别(Recognition)。搜狗输入法的拍照输入、搜狗搜索的识药方等功能,应用的正是搜狗领先的OCR技术。

    其次,还需要对候选图片进行识别判断,基于深度学习和大数据分析处理能力的图像分类技术正好解决这一问题。在OCR技术的基础上,搜狗搜索借用了图像分类的思想,首先将经过变形处理的描述文字图像通过OCR技术识别成文本,再通过图像分类技术,对于多张候选图像识别出其分类信息,然后将文本和分类信息进行自动匹配,从而实现验证码的自动识别过程。

    这样,凭借“OCR技术+图像分类”这套组合拳,搜狗搜索的“图像验证码识别解决方案”有效解决了12306验证码的破解问题,当然并非一日之功,目前搜狗识图搜索已将“深度学习”技术应用于图像识别领域,通过模拟人认知图片的过程,多层次地模拟和学习,大幅提高了图片分类和识别的准确性。另一方面,搜狗面向全网图像标注而积累的大数据,也为搜狗图像识别精度大幅提升奠定了坚实基础。

搜狗搜索
(搜狗识图搜索效果截图)

    搜狗搜索技术负责人表示,此次为搜狗、QQ浏览器等应用的抢票功能提供技术支持,可谓在践行“大开放”战略上迈出了第一步。搜狗搜索将秉持“真正开放”的态度,愿意为其他有相关需求的合作伙伴开放API接口,提供更多技术支持。图像识别技术能够更便捷和智慧地满足用户的搜索需求,在丰富的场景中应用前景广阔。搜狗搜索将创新的搜狗识图技术开放给更多互联网应用,连接多元使用场景,刺激创新并能带来更好的用户体验。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
0
相关文章