互联网 频道

独家献映:谷歌搜索 简单背后的不简单

 【IT168 特别策划】一年前开始策划,历时一个月紧张拍摄制作,IT168虎年开篇巨制《谷歌工程师面对面》系列视频节目于2010年1月11日正式推出。作为《软件大讲堂》开播三年的献礼,本次节目特别获得谷歌中国公司大力支持,一网打尽谷歌十余项最热应用:谷歌搜索、谷歌翻译、谷歌地图、谷歌拼音输入法、谷歌音乐、谷歌浏览器、谷歌购物搜索、谷歌手机地图、iGoogle、谷歌云计算……15位天才谷歌工程师、项目经理云集IT168视频中心,为大家献上精彩的技术演示,与大家分享技术背后的妙事趣闻。谷歌,不仅仅是搜索!IT168带您走进真正的谷歌世界!


专题地址:http://focus.it168.com/focus/201001/google/index.html

  谷歌工程师面对面第9期——搜索:简单背后的不简单

  主题:网页搜索
  嘉宾:谷歌软件工程师 孙峥
  主持:IT168软件群组主编 参胜利
  播出时间:2010年1月22日
  论坛活动:分享你知道的谷歌网页搜索小技巧

 

《谷歌工程师面对面》第9期:谷歌搜索 简单背后的不简单(原视频地址 


孙峥 谷歌软件工程师

  嘉宾简介:孙峥,男,谷歌软件工程师。1995年获得上海复旦大学计算机科学学士学位后,赴美国深造,获得杜克大学计算机科学博士学位。曾经在微软和硅谷的互联网创业公司工作。在2003年至2005年在香港浸会大学任教。2005年7月加入谷歌,参与了Google产品东亚语言的本地化开发工作。2006年7月开始参与谷歌中国研发部的工作,负责中文搜索时效性,整合搜索和搜索百宝箱的开发。

  访谈记录: 

  主持人:亲爱的观众朋友们大家好,欢迎大家准时收看新的一期《谷歌师面对面》节目,今天我们特别邀请了一位谷歌的工程师,他的背景非常的有意思,他在之前是一位计算机的教师,那么还是由他来揭开一下自己的身份吧。

  孙峥:各位网友大家好,我是孙峥,我是在复旦大学读的书,然后到美国去进行了深造。我在美国的IT界、工业界和香港的大学里都工作过,在2005年我到了美国的谷歌公司,然后又在2005年随着谷歌中国办公室的建立,回到了中国,一直到现在。我主要从事的是网页搜索的用户体验和用户界面的改进。

  主持人:好的,我们非常欢迎孙老师光临我们的演播室,刚才大家听了很多孙老师的一些经历,其实我们最关心的还是他在谷歌公司搜索团队做的一些事情。之前我们跟李开复老师有过很多交流,谷歌的传统就是说,他们的搜索在人工干预方面是非常少的,其实这个给了我们一个潜台词,它背后要付出更多的努力和艰辛,那么接着这个机会我们其实想第一个发问的问题就是,孙老师你们天天在忙什么

  孙峥:是这样的,我们的搜索,当一个产品上线以后,我们基本不做人工干预,我们主要从事的工作是发现一个能够改变产品的一个方法,一个算法,然后我们要做很多的工作,要论证,这样的改变是对用户有帮助的,我们在这个基础上进行大量的数据挖掘,最后再进行实验,最后一个产品才上线。主要是搜索的排序,这是很重要的一个方面,我们都要做很严格的一个论证,同时在搜索用户界面和用户体验上我们也会做同样的工作,所以很多工作都是在产品上线以前完成的,产品上线以后我们基本不做人工干预。

  主持人:好的,我们基本上了解了一下谷歌搜索团队的主要工作。那么作为谷歌的核心的一项服务,那么我想了解一下我们搜索团队大概是一种什么样的构成,尤其是我们的中国工程师在其中主要在干一些什么呢?

  孙峥:搜索团队分为好几个部分,一个部分是我们的部门,是负责搜索的用户界面和用户体验的,然后还有一个部分是负责搜索质量,就是包括我们网页的排序,还有一个部分是负责我们的背后的对网页的抓取和索引,所以主要由三个部分组成。

  主持人:其实提到用户体验这块,我想你们是不是经常会邀请一些网友到你们那里去做测试呢

  孙峥:对,我们有专门的用户体验实验室,我们请网友到我们的用户体验室来做工作,然后对他的使用进行全面的跟踪,甚至包括他眼光在屏幕上的移动,我们都会做跟踪,我们会知道用户当看到一个网页搜索结果页的时候,他的眼光最先放在哪里,这样的过程我们都会做跟踪,同时我们也会知道用户喜欢点哪些东西,这些东西我们都会作为以后产品的改进的一个出发点。

  主持人:好的,那么相信通过那么多用户的数据搜集,谷歌的搜索会做的越来越漂亮的。现在我们来看一下笔记本上的大屏幕,这块其实是我们最最熟悉的谷歌搜索的中文界面,除了这个搜索框之外,我们还看到在它的上方还有导航栏,那么在它的下方还有各种颜色的小点点,那么在这孙峥,能不能先给我们介绍一下这个基本的构成呢?

  孙峥:这个上面的导航栏和下面的小点点都是指向了我们各种各样的垂直搜索。

  问:那么什么样的垂直搜索才能上到这样的页面上?

  孙峥:我们有很多的垂直搜索,你可以看到会包括很多其他的东西,实际上我们对哪些垂直搜索能上这里的安排,主要是根据我们对产品的估计和对用户的体验来决定的。

  主持人:好的,那么其实谷歌为了更方便的让网友去访问搜索页面,那么还发明了很简便的一种域名搜索的网址是吗?

  孙峥:对,因为Google这个词对很多中国用户是很陌生的,所以我们还允许用户从一个更为简洁的地方叫“G.cn”访问,这样你不会忘记。 

  主持人:那么我们把更多的时间交给孙峥,他在这会给我们大家带来很多精彩的实例演示。

  孙峥:首先我们可以先体验一下整合搜索,我们选择了一个关键字就是“2012”,那是现在的一个热门。

  主持人:非常火的一部电影。

  孙峥:对,非常好看的一部电影,因为这个电影现在还在电影院里,所以我们可以看到各个电影院放映的时间表。


图:在谷歌中搜索“2010”的结果

  主持人:其实这个搜索结果让我感觉挺吃惊的,因为在许多文章甚至一些书籍里面可能都要包含“2012"这个数字,它却能够把这个电影呈现出来,我觉得这个的确反映它一种智能。

  孙峥:对,我们知道现在《2012》有很多人在讨论,很多网页都做了链接。那么它会对关于《2012》这部电影的网页在搜索上面有个提升,它会排到前面来。同时我们还会提供视频,当然这是从几个视频网站上来的结果,还有包括它的资讯,因为很多人喜欢在新闻或者其他的一些网站上也讨论这个电影,所以我们觉得这体现了各种垂直的信息整合在同一个网页里面的结果。

  主持人:刚才孙峥提到了一个概念就是叫整合搜索,去年一年我们听到了很多来自Google方面对整合搜索发展的研究,其实很多用户平时在搜索的时候根本就不知道什么叫整合搜索,什么叫垂直搜索,只是往输入框里大家把关键字放在里面而已,那么在这孙峥能不能用最简洁的话告诉用户一下,什么叫整合搜索,它和我们之前更多的那种所谓的垂直搜索是什么关系?

  孙峥:整合搜索从最简单的方式来讲,就是一种把各种各样的最相关的垂直信息通过一个页面直接展示出来。那么我们对哪一个垂直内容的选取完全取决于这个关键字和这个垂直内容的相关度。比如说也许现在我们会看到《2012》的新闻,那是因为我们现在有很多人在讨论。两年以后也许看不到了,但是我们可能还会看到视频,视频的《2012》还会有人去看,但是不会有人在新闻上去讨论这个问题的,所以这是时时性很强的一个算法。

  主持人:那么除了刚才我们看到在这个页面上整合的一些图片信息、电影信息、视频信息之外,那么我们整合搜索还有哪些新奇的玩法,能不能在这先给我们介绍一下。

  孙峥:整合搜索是包括各种各样的信息,那么有些信息是很简单的,比方说天气。比方说“阳朔天气”,那么这个就会告诉你说,阳朔县它现在的天气,包括今天三天的天气状况,以及现在的温度,这是一个叫做天气的信息的一个整合。


图:在谷歌中搜索天气

  主持人:没错,我们看到在最上方马上就会有未来三天的天气,还有一些很形象的一些图片在这里,包括湿度等等很详细的信息,那么我想了解一下,这个信息来源是来自哪里,它是否准确呢?

  孙峥:我们下面已经有说明,这是来自“北京市专业气象台”。这是我们和一些第三方的网站合作提供的结果,那么我们都是尽量选取一些比较有权威性的网站。

  主持人:那么在这我想测试一下这个系统,既然我搜阳朔的天气很快能够显示出来,那我只输入天气两个字,它能智能的反映出我当地的天气情况吗?我们现在测试一下。

  孙峥:我们来试试看,当你输入天气的时候我们并不知道你想关心的是什么,我们只有通过你的IP信息来决定说你现在人在北京,那么如果在你不确定说你要搜索哪里的天气的时候,我们就把北京的天气作为提供的信息。

  主持人:没错,这里就是显示北京市的天气情况,那么这个根据IP地址来进行搜索地址的反馈,它也是很个性化的一种展示形式。

  孙峥:对,这样用户养成习惯了以后,如果他只关心自己本城市的天气情况。

  主持人:他就不用再输入“北京市的天气”,直接输入“天气”就可以了,好了,接下来我们再看一个有趣的搜索。

  孙峥:其实还有很多,除了天气以外,你很关心的。

  主持人:比方说现在很多人喜欢炒股,那么股票的信息我们在这是不是能直接输一下股票的代码就出来了?

  孙峥:对,无论你输入股票的代码或名称我们都能获得相应的信息。不论你输入“一汽轿车”还是“000800”都可以,甚至还有一些基金,比方说我选一个基金的信息,甚至包括一些香港教育所的信息,比如美国的股票信息我们都可以提供,那么这是一个信息,那同时我们除了关心股市以外我们还关心娱乐,那么比方说《青花瓷》,这是我们的音乐信息的整合,因为我们很多。

  主持人:熟悉周杰伦的知道,这是周杰伦专辑里面非常好听的歌曲。

  孙峥:对,很多网友都应该知道,我们最近半年上线了一个产品叫做音乐搜索,那么这就提供给了音乐搜索的一个入口,当你在网页搜索上输入歌手名字或者是歌曲名字的时候,我们会给你提供一个入口。

  主持人:那么在这我有一个小小的疑问,比方说Google搜索它凭什么知道用户搜的“青花瓷”是一首歌,还是他要找一个瓷器呢?

  孙峥:我们很多信息是来自于用户的行为,比方说当我们通过对网页的理解和包括对用户行为的理解,我们发现青花瓷是大家所关注的事情,歌的话我们会呈现出青花瓷的歌,当然在青花瓷这歌出来之前,显然我想绝大多数信息是关于真正的青花瓷的。

  主持人:所以说谷歌的搜索结果是与时俱进的。

  孙峥:应该是的。

  主持人:那么我们下来看看还有什么好玩的。

  孙峥:还有很多,比方说你和你的家人并不在一个城市的时候,或者说你和你的朋友,你可以发祝福短信。有时候你缺乏一点创造力,没关系,你可以通过我们的祝福短信的信息的整合,你可以获得很多很多的祝福短信,你可以挑一个你最喜欢的,觉得最好、最能反映你当时心情的祝福短信,然后发给你的家人和朋友。

  主持人:那么我们看一下,排在前面的是2009祝福短信热榜,我们点击一下看,能不能看到什么结果,这里面的确,在热榜里面不但有平常的温馨祝福还有各种各样节日,还有生日,都是分类的。

  孙峥:因为每天都有人过生日,那么我们还有附近的一些节日。


图:谷歌的短信热榜

  主持人:光棍节、万圣节。

  孙峥:对,当我们快圣诞节的时候,我们也会有圣诞节的短信出来。

  主持人:这里面可以看到有很多比较优美的短信在这里,其实怎么把这些短信发给自己,这里面有这样一些功能吗?

  孙峥:对,这里有你的手机号码,然后你可以把你的手机号码输入进去,然后再按这个键就会有免费的短信发送到你的手机。

  主持人:的确谷歌为我们想到的非常多了。

  孙峥:那我们回到搜索页面,除了祝福短信以外,我们还有比方说“衣食住行”,还有“行”。有时候你会说油价,我们比方说无不知道中国的油价和美国的油价相对关系是什么样,因为这很难算,因为中国的油价是人民币又是公升,那么美国的油价又是美元,又是加仑,那么我们可以一人民币除以公升。

  主持人:其实这对许多买车的人来说他们很关心油价的问题,我们看到孙峥在这里输入一个公式一样的很复杂的关键字。这也能出来结果呀?

  孙峥:对,因为它就是把两种单位的换算结合起来,告诉你们一人民币公升等于0.5544美金加仑,当然如果你可以输入一个更具体的,比方说32,那么我们就告诉你是17.44。

  主持人:可以进行时时的更新。

  孙峥:对,这个信息也是从第三方获得的最新的信息。

  主持人:那么就是说我未来不用拿计算器了,直接通过谷歌搜索栏就可以完成一些计算是吗?


图:谷歌搜索可以当作计算器

  孙峥:对,除了这些意外,还有一些其他的更为罕见的一些。

  主持人:我问一个简单,比方说问它基本的加减乘除也可以在这算出来吗?

  孙峥:对,应该能算出来,32除以4,它告诉你是8,当然你可以做更为复杂的计算,这也是我们的一个整合,当然这个时候你输入这个时候,我们完全相信你是计算,所以我们省略了所有的搜索结果,只给你了计算器的信息。

  主持人:这个也完全符合谷歌一贯的简洁的这种风格。

  孙峥:对,当然我们觉得有些信息对你完全没有用的时候,我们干脆就不要提供了。那么还有一些更为有趣的服务。

  主持人:其实在中国的神话里面经常有这样说,天上一日等于多少年。我们看到一个结果等于一千年,我觉得这个是非常符合中国的民俗的一些传统的传说里面的故事的结果。

  孙峥:对,还有就是这个我输入错了,无量等于多少,我们会告诉你,这也是我们的一个功能,它告诉你说,你虽然输入这个,但是很多人输入错了这个,他们实际要找这个,所以当你输入这个以后,它会告诉你,无量这个数量级相当于1.0×10的68次方,这也是计算器整合的一个部分,计算器的信息,当然它就是比较简单,因为它只是提供一个数字。

  那么同时,我们还有更多的功能,比方说现在大家都很想学英语,那么有的时候你碰到一个单词你不认识,怎么办呢,你可以输入这样我们有一个翻译它会告诉你说“recursion”。

  主持人:直接把中文的意思给返回了。在这里我们看到这个意思就是“递归,循环”,这其实是很专业的一个词。

  孙峥:对,而且在英文的界面里面还有一个很有趣的事情,当然你如果输入错了“recursion”,比如你输入成“recursionf”,它会告诉你说,你输入的是这个,但是当你到了这里以后发现还是这个,这是怎么回事呢,当时我一开始发现这个的时候我感到非常的生气,这是很严重的一个bug,而且这么简单的事情。

  主持人:明明已经输入对了,它怎么还提示你输入的是这个。那我们再点一下会有什么结果呢?

  孙峥:然后不断的点不断的点,我才明白这就是“循环”。

  主持人:没错,我发现Google其实在把用户玩了一把,做了一个行为艺术。

  孙峥:实际上用另外一种工程师的幽默,让用户从另外一个方法理解到这个词的意思是什么。

  主持人:其实从刚才简单的概念理解到谷歌很年轻的一种文化在里面,那么你们在团队里是不是经常有很多非常搞笑的事情?

  孙峥:实际上我们在工作里面像这样的事情,真正作为一个用户体验能够让用户看到事情,并不是很多,因为这个毕竟用户要理解,这个用户能理解的,有些更多搞笑的事情可能用户不能认同,但是我们在工作中,环境是非常轻松的,我们有各种各样的,比较大多数人坐在一起,工作得非常愉快。

  主持人:是的,其实刚才我也看到了在搜索界面上有一个不知道大家注意没有,在每个结果的上方都有一个叫做打开百宝箱这样一个导航栏,其实百宝箱在中国用户的眼里,它其实像一个聚宝盆这样一个概念,那么我在想提前问一下,这个百宝箱里面到底装的什么东西?

  孙峥:百宝箱是一个工具栏,告诉你有各种各样的工具,能够对你的搜索进行个性化的定制。比方说刚才我们看到的你搜索一个结果,我们对于每个用户基本上一样,当然有些结果可能跟你所处地址不一样,比方说天气。但是绝大多数的情况下结果是一样的,有的时候你对你所要找的信息有一种更为细化的要求,那么我们这种百宝箱里面的各方面的工具就给你提供各种各样的方法来细化你的搜索。

    主持人:好的,大家现在看一下大屏幕。那么在百宝箱的左侧其实有很多的条件选项,那么在右侧显示的搜索结果,现在孙老师给我们输入了一个结果。

  孙峥:内联生这是一个非常老字号的店,那么老字号就有历史,我们可以通过“时光隧道”我们来看一看,在这个老字号的历史上发生了什么事。


图:谷歌百宝箱中的“时光隧道”

  主持人:这是一个从1853年就开始创建的一个做布鞋的企业品牌。

  孙峥:对,这里的年份并不是指你的网页建立的时间,而是你这个网页描述事件的时间,比如1853年是内联生创建的时间,那么我们可以细分到里面去,1900年,这个高度反映了这个时间里面发生事件的热度,为什么这么高呢,因为好多网页都提到了这个事情,在1900年八国联军侵入中国的时候内联生被烧掉了,那么还有很多小小的高点都反映了内联生在历史上很重要的历史事件。

  主持人:那么我们其实通过这个简单的事例能够发现,这个神奇的时光隧道相当于历史博物馆的感觉。

  孙峥:对,它告诉你和关键字相关的实体它在历史上发生的事件。

  主持人:那么我们在这可以试一下,比如我们试一下Google,是不是能够把Google的发展历史有所展现。是的。

  孙峥:谷歌,因为谷歌前面这个词有一些别的意思,很明显,我们看到谷歌这个时候。

  主持人:我们看到第一个时间点是2005年。

  孙峥:对,这个是它刚开始建立的时间,为什么有这么高呢,因为很多网站都提到在这段时间谷歌建立了。后来当然因为随着谷歌的发展,越来越多的网页会讨论谷歌的内容,我们各个地方都会有相应的高点,比方说2006年中国办公室成立,以及后面各种各样的时间,我们都可以通过点击进入缩小时间段,能够更清楚的看到在比较小的时间段发生的事情。

  主持人:除了公司之外,我们对于一个人能在这搜吗,比如一个明人我们查他的简历非常的麻烦,不知道他的这些简历经历分散到多少个网页当中,那么在这通过时光隧道有没有给我们一个清晰的列表。

  孙峥:你想搜谁呢?

  主持人:比方说我们的“毛主席”,我们来测试以下,今天感觉好象是给孙老师的一个考试卷。

  孙峥:毛主席也有各种各样的事件,比方说,当然我们在这里是告诉了各种各样的历史事件发生,以及他们各种事件的一个热度,那么比方说1949年很高,那个时候是中国解放的时候,那么显然有各种各样的文章讨论,在这段时间内发生的事件,那么同时我们这里的搜索结果还提供、选取了其中一些历史事件,我们根据我们认为的历史事件用算法算出来历史事件的重要性进行了选取了一些时间,比方说1949年我们选取了开国大典,这是在那一年中国发生,尤其是和毛主席相关的事件里面最重要的。

  主持人:除了刚才的神奇的时光隧道,我们在左侧还看到非常多的选项,比较吸引我们目光的是神奇罗盘等等,这些觉得很神秘。

  孙峥:对,因为我们的取名并不需要它反映出它内部的算法,我们只是让用户能够有个形象的认识,比方说“神奇罗盘”。神奇罗盘它是一个搜索方式,帮助你能够从一个关键字走到另外一个关键字,而且它能反映出各个关键字之间的关系。比方说“kitty”,它很相关的关键字,比如好所hello kitty的手机或者其他的一些官方网站,这些都是很重要的信息,那么在这里我们看到的还是对当前关键字正常的搜索结果,那么比方说我们可以从一个跑道另外一个。


图:谷歌百宝箱中的“神奇罗盘”

  主持人:我们看到一个非常绚的动态的过渡效果,从刚才的一个小太阳跑到了更大的一个大太阳。

  孙峥:对,因为刚才的kitty,现在当我点了Hello Kitty手机以后,Hello kitty手机就变成当前的关键字了,那么我们就围绕着它的其他的一些对于当前关键字相关的,比方说手机专卖什么之类的事情,这是当你搜索的状态是一个比较发散的状态的时候,你想从一个地方走到另外一个地方,找出相关的概念,这是一个很好的方式。

  主持人:是的,刚才我们在小太阳的旁边我们甚至可以看到淘宝网一些淘宝店的链接都已经出来了,这个其实对用户来说非常方便他去进行下一步的选择。

  孙峥:对,这样的工具很绚,有些其他的工具看上去不是那么特别的绚,但是它确实很有用。刚刚欧冠比赛结束,比方说我们现在说我们搜索一下皇马欧冠,正常是这样的搜索结果。当然这个结果也包括新闻,也包括了一些很好的视频,包括了一些很好的专门的网站。但是有的时候你的需求会比较特别,比方说这里的信息太多,我就想看最近一周内皇马的比赛,那么就会有各种各样的网页,但是在这最近一周之内的文章,包括皇马昨天早上清晨出现以后有人写了一篇文章,是关于皇马整个出现的历程,那么它是很新的,那么我们同时还可以按照日期排序,这样完全按照时间的顺序,这一分钟之前的。它从用户界面来说没有发生任何的变化,你还是看到这些结果,但是你抽取的是整个海量的网页数据里面的一部分你想要的内容。

  主持人:其实看到现在,我相信很多网友对百宝箱已经有了非常深刻的认识了,它其实是完成用户精准搜索的一个非常好的工具,我们刚才看到出了一周内之外,另外还有一天内,甚至一小时以内的搜索结果。

  孙峥:甚至可以自定义时间。而且各种各样的工具,有的时候还能合起来使用,比方说我们这是视频搜索,视频搜索它实际上给你很多视频的结果,视频结果有的时候比方说我想看最近的视频,发现视频我们有时间的记录,我们可以选择一周内,我们也可以按照排序。

  主持人:我看到右侧还有一个更精确的让我想象不到的,这个视频的时间都标出来了。

  孙峥:对,这是某种特定的垂直信息特有的细节,一般的网页是没有的,所以我们对这个也提供了划分,甚至还包括来源。比方说当你喜欢其中有些的话,你可以通过这个来进行选择,所以这是对视频这种信息搜索进行的各种各样的细化。

  主持人:除了视频之外我们看到下面还有一个论坛,这部分大概是什么样的内容?

  孙峥:就是我们所谓的BBS,这个是很有用的,因为有时候你不想看官方的,你就想和网友讨论一下。也许网友并不是特别的权威,但是他会对自己的感情有一个直接的抒发。比如我是皇马迷,很想看看其他的皇马迷对比赛的看法,我想了解一下他们,尤其是喜欢看BBS,但你又是一个潜水的人,这是很好的方法,你不用发帖,但是你很想看,这里我们结合了各种各样的BBS的搜索结果,那么同时我们还是可以按照时间进行抽取,并且按照日期进行排序。

  主持人:没错,我发现这个工具的确是非常适合这种超强的潜水的水民使用,不过这个工具我相信会被许多站长抵制的,打倒潜水。

  孙峥:然后下面还有一些其他的结果,比方说图文并茂,这个图文并茂我很喜欢,因为我有两个小孩,我想跟他们说某一个动物是什么样子的,你光看网页结果也许不够,那么我们可能还需要看图。

  主持人:世界上最大的鸟,这个我也不知道。


图:谷歌百宝箱中的“ 图文并茂”

  孙峥:对,我们可以回到正常的网页,这也是会告诉你这个,但是图文并茂会给你展示各种各样的东西,当然这个世界上最大的鸟有两种回答,一种是我们现在还活着最大的鸟,当然是鸵鸟,另外一种是恐龙时代的像恐龙一样的鸟,那么显然它体积比现在的鸵鸟更大,那么这样对小孩来说更有一个直观的感觉。因为比方说当小孩想通过搜索学习的时候,对孩子来说,他会感兴趣这个网页里面是不是有很多相关的图片,因为这会帮助他理解,对成人来说也许光看一篇文章就足够了,对孩子来说他需要更多的图片,那么这个可以告诉你,我们对网页进行了重新的排序,把一些图文并茂的网页排到了前面

  那么还有一个就是“更多描述”。我们希望能够让用户看到除了我们传统的摘要以外,更多的信息,那么这也是一个对你学习的过程,因为你可以从这看到哪些网页,你可以清楚的知道那些网页讲的信息是不是像你想要的那么详尽,如果你觉得这个好象很详尽你可以进去仔细看,这是另外一个,当然我们还有更多的新的工具慢慢的上线,我希望大家能够使用。

  主持人:其实通过刚才孙老师演示我也长了很多知识,最起码知道世界上最大的鸟是什么了。除了小孩子,我觉得很多大人他的需求也是多方面的,尤其现在我们媒体已经进入了读图时代,很多人喜欢图片,很多人喜欢视频,那么也有一部分人他需要更多、更详尽的文字描述,可以说百宝箱把这几类人群全都满足了。

  孙峥:对,我们还会提供更多的工具满足各种各样的人的需求。

 


IT168软件群组主编 参胜利 谷歌软件工程师 孙峥

  主持人:那么其实用户到一个网站去搜索,李开复之前说过一句话,就是谷歌的理念是希望用户来到这之后停留的时间越短越好,那么也就意味着用户找到了他想要的东西,那么在搜索精度这块,我们整个团队在保证搜索精度这块都在做哪些工作

  孙峥:搜索精度有两个方向,一个方向是背后算法的改进,这个不是不断的进行的。比方说我们会经常关注哪些关键字的搜索结果用户不满意,在这种情况下,我们可以通过对这一类的我们称为Bug的这些东西进行总结。然后发现这些东西可以归纳为一个原因,而这个原因可以用这个算法进行改进,那么我们就会改进算法,当然我们要保证改进这些关键字的同时不要让其他的关键字变得比以前更糟糕了,我们需要改进这些但又不伤害其他的关键字,然后如果我们发现了这样一个算法我们就会把它实现,实现了以后我们会进行各种各样的测试,甚至是实验,最后我们认为这个效果非常满意,对用户有很大的帮助以后,我们会把它推上线,这是精度。

  另外一方面的精度就是我们把权利交给用户,就像我们现在显示的这些一样,当你搜索一个皇马欧冠的时候,比方说半年以后你说皇马欧冠我并不知道你看的是这个赛季的皇马欧冠,还是类似于十年的一个回顾,那么这样的情况下,我们就可以让用户自己来选择,用我们提供各种各样的选择,两种方法帮助用户能够追快的找到他们所需要的信息。

  主持人:其实中国还有一句话叫做“巧妇难为无米之炊”,那么在搜索的算法之前,我相信搜集大量的网页的数据也是非常关键的一点,很多网友可能都听说过,搜索引擎是通过爬虫、蜘蛛等等很形象的词描绘抓取的形势,那么能不能在这给我们解释一下,这个蜘蛛或者爬虫究竟是一个什么样的工作原理,那么它去怎么样执行它的任务呢?

  孙峥:这个实际上从大的方向上来讲,网页爬虫或者网页蜘蛛,实际上对整个搜索产业来说是基本上原理是很类似的,从具体实现可能会有不同。它主要选择一些他认为很好的网站,然后从这些网站,因为里面有很多链接,从这些链接出发,一步一步走下去,当然因为海量网页整个数据是非常大的,我们不可能把所有的网页都收入进来,但是我们会选择我们认为最好的网页放进我们的索引里面来,这样在搜索的产品上呈现给用户。

  主持人:其实刚才我们一直在谈整合搜索,其实在谷歌的搜索门类当中还有非常多的垂直搜索,那么有的网友问,我什么时候需要垂直搜索,什么时候又不需要它呢?

  孙峥:垂直搜索是当你知道你对信息需求来源的时候,垂直搜索给你提供简洁的方法,比方根据我们说《2012》,我们会给你提供各种各样的信息,包括电影的放映时间,包括视频,包括新闻,但是比方说你作为一个电影爱好者,你已经知道自己想看的是新闻,因为你很想知道其他的影评家,或者专家、业内人士对这个电影的评价,因为你已经看过电影了,或者你知道你想去看电影,你为什么在乎视频呢,因为你想看的就是新闻,那么你就会找到资讯那边去,然后这样的话,当你的目的是非常明确的时候,你可以选择垂直搜索,它是对整合搜索的一个很好的补充。

  主持人:那么其实搜索对大家来说可能是日常生活中最重要的,也看似最基本的一个服务,那么在我们也想借助这个机会问孙老师,除了刚才那么多种不同的玩法之外,有没有谷歌搜索秘而不宣的窍门,能不能给大家介绍介绍?

  孙峥:也没有秘而不宣,因为很多高级的用户也知道。你只想看一个网站,比方说新浪,那么我们可以加这么一个东西叫做site,它就是网站的意思,冒号,然后把网站的名字放在这边,这时候我们搜索的结果就完全来自于这一个网站,那么其他网站会被忽略。有很多这样的命令,但是它和这些搜索设置的区别就有点像你在DOS的命令行或者ULINKS命令行的使用和你在一个友好的用户界面里面对其他的菜单的使用这样的道理。

  主持人:明白了,其实感觉很DOS和Windows的差别有点类似,其实对于一些高级的用户,尤其是站长来说,有很多搜索的命令,对他们其实是有非常多的帮助的,在这除了site是用来搜索某一个站里的内容之外,能不能给大家说点其他的呢?

  孙峥:比方说你很想知道哪些网页它是在这个网页的title里面就有了你这个东西,这样的你看到的结果就是每个都是在title里已经有的这个结果的。其他的还有很多,我相信可以在各种各样的Google的网站上,或者是Google粉丝的BBS里面我们可以找到各种各样的应用。

  主持人:好的,其实在搜索框的右侧,除了搜索按纽之外,我们可以看到旁边还有一个高级这样一个链接,那么在这里面隐藏着什么东西呢?

  孙峥:这个东西已经存在了好久了,但是它现在的其中一部分功能已经被我们刚才显示的百宝箱所覆盖了,但是还有很多功能你可以在这里选择,比方说文件格式。比方说我很想找一个PDF的文件,我不在乎一般的HTM网页,我在乎的是PDF,我就可以通过这个来搜索,这个东西就会告诉你说,我可以通过稍微更像Windows的方法。

  主持人:其实就和刚才的site过程是一样的。

  孙峥:对,这个还有使用权限,各种各样的方法,甚至还有类似网页,我可以通过这个搜索来搜索一个网页它类似的网页,这些就是更为高级的功能,你平时不大使用到,但是如果完全你有这样的需求,它可以非常的方便。

  主持人:其实虽然说搜索如此简单,但是通过今天的演示,通过孙老师给大家讲解,我相信大家可能感觉到,这个搜索其实还不是那么容易的,尤其是拿到我们精准的结果,其实背后的工程师还是付出了非常多这种努力。今天我们也非常荣幸请到了孙老师为大家做这么多讲解,这也是我们这期节目的内容,好的,《谷歌程师面对面》我们下一期再见。

  孙峥:再见。

0
相关文章