度娘出国游,葡语不是事儿
世界杯余温犹在,习大大增温又来。2014年的夏天,整个世界都随着巴西这个素以热情著称的桑巴国度一起疯狂、一起呐喊,而就在世界杯刚刚落幕没几天,中国国家主席习近平到访巴西,迎来中巴建交40周年。与以往国事访问不同的是,习大大此次的外交“拉美风”也吹进了互联网领域。巴西当地时间7月17日,习大大与巴西总统罗塞夫共同出席百度葡语搜索引擎发布仪式,百度葡语版搜索正式亮相。
众所周知,Google在外文搜索引擎上早有布局,更是凭借其外文原生环境和技术创新的优势,在外文搜索上称霸一方。相对而言,百度在中文搜索上处于领头地位,凭借其在中文语境中对搜索技术的深耕细作,一直为达到更好的用户体验而努力。站在服务世界用户、造福全球网民的角度,百度谋求更多的海外发展空间。作为巴西的官方语言,葡萄牙语是继英语和西班牙语之后世界上使用最广泛的语种之一,葡语使用者也大部分居住于此,巴西葡语搜索前景广阔。百度此番葡语搜索引擎的上线,是在07年日文市场初步尝试之后,新国际化战略的第一个大动作。此番不但推出了网页搜索,更是一并上线了图片和视频垂直搜索。据悉,新国际化的步伐后面将大大加速,阿拉伯语和泰语等搜索引擎更是呼之欲出。
通用架构&大神算法,不懂外语也能搞定外文搜索
据悉,去年9月份百度葡语搜索引擎开始小流量测试,今年6月份开始全流量运营。百度是如何能够又快又好的上线葡语等外文搜索引擎呢?快在于架构,好则在于算法。百度搜索引擎自2000年至今已经历了14年的发展积累,探索实现了一套融合了多个产品的完整的检索架构和检索算法。但传统搜索框架在中文语境中需要考虑中文特有的语言规则,在不同的语言环境中会因各异的语法而并不通用。百度搜索的国际化架构基于百度原有的架构,优化改革成了一个独立于各个语言的通用的稳定的语言架构,检索算法也是一样,通过不断引入和优化原有的机器学习算法,使应用于各个检索阶段的原有机器学习算法更加通用更加深入,最终实现了外语检索的快速上线。这个模型使得工程师在不懂某一门外语的情况下,只需借助这一外语语料进行训练,就能够快速训练构建一个外文搜索引擎。神奇正如《西游记》中悟空吃书《医家精妙》一般,书下肚,医术自成。
接地气的知识图谱,搜索赚人气
Google在搜索技术上的很多方面只能让国内企业望尘莫及,且鉴于其对市场投入产出的把控,一直追求搜索通用化,积累了大量通用数据和量级,但它的这种高端路线定位也使其信息检索结果很难与本地化市场契合。而与之相比,百度的葡语搜索引擎不仅通过知识图谱技术实现外文信息的快速检索,还通过深挖本地化特色构建了符合巴西市场的实体知识库,将搜索做得更加深入、更加细腻、更接地气。
知识图谱是通过数据挖掘、信息处理等技术建立知识库,并充分挖掘形成知识之间丰富的联系。此次百度葡语搜索引擎推进了知识图谱在国际化方面的深度发展,百度国际化搜索团队基于百度知识库架构快速构建巴西本地化知识库,其中包含了千万量级的葡语知识实体,并借此实现了葡语的实体搜索和搜索页面右侧的实体推荐。最重要的是,百度能基于当地人文环境来进行知识图谱的构建,接地气的打造搜索和推荐的本地化及垂直化,更懂当地人所需,比其他搜索引擎更懂葡语。目前,百度葡语搜索引擎已上线几十个类目,结合当地人的信息关注点,分门别类进行类目深耕和实体挖掘。
几千种语言,同一个百度
人类文明的繁荣、更迭造就了世界丰富复杂的语言体系,据悉,全世界共有5000-7000种语言,包括英语、法语、西班牙语、阿拉伯语、俄语、中文等在内的现行常用语言覆盖全球、使用人群广泛。而目前现行互联网语言仍以英语为主,语言的障碍给许多小语种国家用户进行信息检索带来困难,他们对符合自身语系特点而建的搜索引擎存在着巨大需求。以用户为使命,百度外文搜索引擎的上线是其造福世界用户、真正走向世界的重要一步。
而有着百度hao123、百度卫士和百度浏览器等百度产品先后在巴西进驻的成功先例,相信百度葡萄牙语搜索引擎,定能够在南美这块最大的国土上顺利“开疆扩土”。同时凭借通用的检索架构、独立于语言的大神机器学习算法、以及本地化的大规模知识库的应用,百度在其他外文搜索引擎方面也将走的更好更远,真正成为世界的百度。