互联网 频道

独家献映:谷歌搜索 简单背后的不简单

 


IT168软件群组主编 参胜利 谷歌软件工程师 孙峥

  主持人:那么其实用户到一个网站去搜索,李开复之前说过一句话,就是谷歌的理念是希望用户来到这之后停留的时间越短越好,那么也就意味着用户找到了他想要的东西,那么在搜索精度这块,我们整个团队在保证搜索精度这块都在做哪些工作

  孙峥:搜索精度有两个方向,一个方向是背后算法的改进,这个不是不断的进行的。比方说我们会经常关注哪些关键字的搜索结果用户不满意,在这种情况下,我们可以通过对这一类的我们称为Bug的这些东西进行总结。然后发现这些东西可以归纳为一个原因,而这个原因可以用这个算法进行改进,那么我们就会改进算法,当然我们要保证改进这些关键字的同时不要让其他的关键字变得比以前更糟糕了,我们需要改进这些但又不伤害其他的关键字,然后如果我们发现了这样一个算法我们就会把它实现,实现了以后我们会进行各种各样的测试,甚至是实验,最后我们认为这个效果非常满意,对用户有很大的帮助以后,我们会把它推上线,这是精度。

  另外一方面的精度就是我们把权利交给用户,就像我们现在显示的这些一样,当你搜索一个皇马欧冠的时候,比方说半年以后你说皇马欧冠我并不知道你看的是这个赛季的皇马欧冠,还是类似于十年的一个回顾,那么这样的情况下,我们就可以让用户自己来选择,用我们提供各种各样的选择,两种方法帮助用户能够追快的找到他们所需要的信息。

  主持人:其实中国还有一句话叫做“巧妇难为无米之炊”,那么在搜索的算法之前,我相信搜集大量的网页的数据也是非常关键的一点,很多网友可能都听说过,搜索引擎是通过爬虫、蜘蛛等等很形象的词描绘抓取的形势,那么能不能在这给我们解释一下,这个蜘蛛或者爬虫究竟是一个什么样的工作原理,那么它去怎么样执行它的任务呢?

  孙峥:这个实际上从大的方向上来讲,网页爬虫或者网页蜘蛛,实际上对整个搜索产业来说是基本上原理是很类似的,从具体实现可能会有不同。它主要选择一些他认为很好的网站,然后从这些网站,因为里面有很多链接,从这些链接出发,一步一步走下去,当然因为海量网页整个数据是非常大的,我们不可能把所有的网页都收入进来,但是我们会选择我们认为最好的网页放进我们的索引里面来,这样在搜索的产品上呈现给用户。

  主持人:其实刚才我们一直在谈整合搜索,其实在谷歌的搜索门类当中还有非常多的垂直搜索,那么有的网友问,我什么时候需要垂直搜索,什么时候又不需要它呢?

  孙峥:垂直搜索是当你知道你对信息需求来源的时候,垂直搜索给你提供简洁的方法,比方根据我们说《2012》,我们会给你提供各种各样的信息,包括电影的放映时间,包括视频,包括新闻,但是比方说你作为一个电影爱好者,你已经知道自己想看的是新闻,因为你很想知道其他的影评家,或者专家、业内人士对这个电影的评价,因为你已经看过电影了,或者你知道你想去看电影,你为什么在乎视频呢,因为你想看的就是新闻,那么你就会找到资讯那边去,然后这样的话,当你的目的是非常明确的时候,你可以选择垂直搜索,它是对整合搜索的一个很好的补充。

  主持人:那么其实搜索对大家来说可能是日常生活中最重要的,也看似最基本的一个服务,那么在我们也想借助这个机会问孙老师,除了刚才那么多种不同的玩法之外,有没有谷歌搜索秘而不宣的窍门,能不能给大家介绍介绍?

  孙峥:也没有秘而不宣,因为很多高级的用户也知道。你只想看一个网站,比方说新浪,那么我们可以加这么一个东西叫做site,它就是网站的意思,冒号,然后把网站的名字放在这边,这时候我们搜索的结果就完全来自于这一个网站,那么其他网站会被忽略。有很多这样的命令,但是它和这些搜索设置的区别就有点像你在DOS的命令行或者ULINKS命令行的使用和你在一个友好的用户界面里面对其他的菜单的使用这样的道理。

  主持人:明白了,其实感觉很DOS和Windows的差别有点类似,其实对于一些高级的用户,尤其是站长来说,有很多搜索的命令,对他们其实是有非常多的帮助的,在这除了site是用来搜索某一个站里的内容之外,能不能给大家说点其他的呢?

  孙峥:比方说你很想知道哪些网页它是在这个网页的title里面就有了你这个东西,这样的你看到的结果就是每个都是在title里已经有的这个结果的。其他的还有很多,我相信可以在各种各样的Google的网站上,或者是Google粉丝的BBS里面我们可以找到各种各样的应用。

  主持人:好的,其实在搜索框的右侧,除了搜索按纽之外,我们可以看到旁边还有一个高级这样一个链接,那么在这里面隐藏着什么东西呢?

  孙峥:这个东西已经存在了好久了,但是它现在的其中一部分功能已经被我们刚才显示的百宝箱所覆盖了,但是还有很多功能你可以在这里选择,比方说文件格式。比方说我很想找一个PDF的文件,我不在乎一般的HTM网页,我在乎的是PDF,我就可以通过这个来搜索,这个东西就会告诉你说,我可以通过稍微更像Windows的方法。

  主持人:其实就和刚才的site过程是一样的。

  孙峥:对,这个还有使用权限,各种各样的方法,甚至还有类似网页,我可以通过这个搜索来搜索一个网页它类似的网页,这些就是更为高级的功能,你平时不大使用到,但是如果完全你有这样的需求,它可以非常的方便。

  主持人:其实虽然说搜索如此简单,但是通过今天的演示,通过孙老师给大家讲解,我相信大家可能感觉到,这个搜索其实还不是那么容易的,尤其是拿到我们精准的结果,其实背后的工程师还是付出了非常多这种努力。今天我们也非常荣幸请到了孙老师为大家做这么多讲解,这也是我们这期节目的内容,好的,《谷歌程师面对面》我们下一期再见。

  孙峥:再见。

0
相关文章