互联网 频道

独家献映:工程师面对面之谷歌翻译探秘

  【IT168 特别策划】一年前开始策划,历时一个月紧张拍摄制作,IT168虎年开篇巨制《谷歌工程师面对面》系列视频节目今日正式推出。作为《软件大讲堂》开播三年的献礼,本次节目特别获得谷歌中国公司大力支持,一网打尽谷歌十余项最热应用:谷歌搜索、谷歌翻译、谷歌地图、谷歌拼音输入法、谷歌音乐、谷歌浏览器、谷歌购物搜索、谷歌手机地图、iGoogle、谷歌云计算……15位天才谷歌工程师、项目经理云集IT168视频中心,为大家献上精彩的技术演示,与大家分享技术背后的妙事趣闻。谷歌,不仅仅是搜索!IT168带您走进真正的谷歌世界!


专题地址:http://focus.it168.com/focus/201001/google/index.html

  谷歌工程师面对面第1期——打通谷歌翻译七经八脉

  主题:谷歌翻译
  嘉宾:谷歌软件工程师 尹俊
  主持:IT168软件群组主编 参胜利
  播出时间:2010年1月11日
  论坛活动:最雷人的谷歌翻译大征集


《谷歌工程师面对面》第1期:打通谷歌翻译七经八脉(原视频地址


尹俊 谷歌翻译工程师

  嘉宾简介:

  尹俊,男,谷歌软件工程师。2005年7月毕业于南京大学计算机科学与技术系,获得硕士学位。2005年7月至2007年9月,就职于IBM上海全球化软件实验室。2007年9月加入谷歌工程部,负责谷歌图书的网页引用功能的质量改进,以及针对中日韩语言的本地化完善和多项新功能的开发。2008年4月参与组建谷歌翻译上海开发团队,负责谷歌翻译前端服务系统的重构,以及多项新功能的设计和开发,包括多种文档格式的翻译支持、网站翻译工具、文本语音朗读等等。

  访谈记录:

  主持人:亲爱的观众朋友们大家好,您现在收看的是IT168软件频道为您推出的软件大讲堂特别节目,今天是我们筹备已久的Google工程师面对面的第一期,今天我们请来了哪位Google的工程师呢,首先请这位帅哥自我介绍一下好吗?

  尹俊:帅哥不敢当,我叫尹俊,是Google的工程师,现在在上海工作,我是2007年加入Google的,现在已经两年多的时间了,我现在的主要项目是做谷歌翻译。

  主持人:我相信大家通过尹俊身上这个体恤衫已经发现了,这个是他们专门定制的一款Google体恤衫,Google的翻译其实这几天也刚刚改版全面上线,那么在开始个主题之前,我想先给尹俊提一个问题,你知道现在世界上的语言有多少种?

  尹俊:具体的数字我说不上来,但是我曾经看过一个数据,大概有六千多种。

  主持人:差不多,是的,今天早上我也专门去补了补课,搜索一下,其实我们现在全球六十亿人两百多个国家,两千五百多个民族,那么现在语言的种类其实具体到多少种,大家学术界也在打架,那么大概也就五六千种的样子,那么五六千种语言大家沟通起来是非常麻烦的事情,这时候就需要我们有一款便捷的工具,那么这时候呢,谷歌为我们提供这样一款非常好的工具,它目前支持的语言达到51种,这样庞大的一个系,那么我们很多网友也非常关心,那么Google它的翻译和我们其他的翻译软件的翻译有什么样不同的特色,目前他们在原理上有哪些不同的流派,那么先给我们从原理级介绍一下。

  尹俊:我可以简单说一下,现在在机器翻译界大概有两个流派,就是您刚才说的流派,一个是基于规则的翻译,这个可能发展比较早,就是说我有一个语言A到另外一个语言B的话,我可能先要分析两个语言不同的语法,然后定义从某一个A的结构到B的结构怎么转换,所有这些规则写下来之后,再配合字典词汇的转换达到一个翻译的目的。

  主持人:其实这种方法我感觉像我们在学校学习的过程,记单词、学语法,然后再根据这些拼出来我们翻译的一个结果,那么第二种流派是什么样子?

  尹俊:第二种流派就是Google现在所采用的这么一个翻译的方法,它是基于统计的方法方式,它主要的过程是说,它会拿一些平行的语料,所谓的平行语料,就是说我有一个文章,它既有A语言的版本也有B语言的版本,然后我们会对这个文章进行分析,知道某些A语言的句子对应某些B语言的句子,然后再进行分析之后,我们可以用统计的方式得到在某一些词组或者某一些句子在某种情况下可以翻译成另外一种语言的句子。

  主持人:那么刚才小尹提到一个词是“语料”,那么语料在这里是怎么解释呢,可能有些朋友不太清楚。

  尹俊:所谓“语料”就是语言的材料。

  主持人:可能是一些大量的这种范本?

  尹俊:对大量的范本。

  主持人:就是把它作为一种原材料,然后我们和这种进行对比,哪个能对上,它可能就是这个意思,其实我们知道Google最强项的就是搜索技术,但是翻译这块说实话,它的要求的语料,它的搜集肯定是要求非常精准的,我不知道我们谷歌翻译它的语料搜集都有哪些途径,都是从哪里找到这些标准的翻译结果呢?

  尹俊:其实语料基于统计的翻译是挺重要的,所以我们尽量要保证语料的准确性和正确性,所以我们举个简单的例子来说,最早的一些语料大家可能能想到的就是联合国的一些官方文件,因为我们知道联合国有五种官方语言,它任何一个文件发布出来可能都会被翻译成五种语言,那么我们这个就是一个非常好的语料,那么其他的一些语料我们可能从一些可信任的网站或者一些材料来找,基本上是一些可信任的途径。

  主持人:好的,刚才也说到了一些语料方面搜集的情况,那么我了解的情况,比方说目前通过联合国这边,通过Google商务这边搜集到大量的素材,那么从基础的网页上面也会搜索到一些最新的翻译的结果,那么Google的翻译项目,我不知道它是一共实施了有多长时间了,发展到现在是一种什么样的规模,网友也非常感兴趣,能不能先给大家介绍一下团队方面的情况?

  尹俊:Google的翻译项目最早是从美国Google的总部开始的,已经有几年的时间了,然后在去年的时候,中国组织了一个翻译的团队,加入了美国这么一个开发的过程。然后现在基本上团队分工是说,在美国的这个团队,因为他们是从最基础的做起的,所以他们负责整个后台的搭建,还有一些算法和质量方面的改进,然后因为我们有很多的服务器,在美国那边所以他们也负责产品的发布和维护,部署和维护,然后在中国这边,我们主要负责前台的用户体验的改进,然后还有一部分的跟质量提高相关的一些质量改进,也是后台的内容,然后还有就是跟美国工程师进行一个联换的对于产品的维护方面的工作。

  主持人:现在我们中国团队的人员大概是多少?

  尹俊:大概有七八个人这样子。

  主持人:七八个人,我觉得还是非常棒的团队,能作出这么精采的产品,相信有些朋友可能还没有用过这个产品,那么现在我们就把大量的时间交给尹俊,让他来为大家演示一下谷歌翻译,它改版之后给我们带来哪些全新的功能,大家可以现在看一下尹俊面前的这台电脑,通过电脑的屏幕,我们首先可以看到谷歌翻译的一个界面,谷歌翻译的界面其实还是非常简单的,秉承了Google简洁的设计元素在里面,我们在这可以看到,上面有一行解释就是翻译文字、网页、文档,那么这个是谷歌翻译的三大主要功能是吗?


图:谷歌翻译首页(http://translate.google.cn


  尹俊:对,我们觉得翻译对于用户来说应该是一个非常简单的工具,能够简单的被用户使用,但是它提供的功能是非常强大的,可以翻译各种语言的文档。

  主持人:我们首先尝试一下翻译文字吧。

  尹俊:比如我们先输入一句英语,今天天气很好,今天是一个好日子,那么大家可以看到,在我输入的同时,下面翻译的结果已经同时被显示出来了。


图:使用“谷歌翻译”翻译文字

  主持人:是的,我刚才发现当输入一个单词的时候,这个下面就会有即时的显示出来。

  尹俊:对。

  主持人:这个是我们的一个新功能吗?

  尹俊:对这是我们的一个改进,因为我们发现,实际上大量用户翻译的文字都是很短的文字,然后大家需要的翻译量还非常大,所以我们很想节省用户的时间,让他不需要再去按这个翻译的按纽或者按下回车甚至都不需要,你只要把文字粘贴拷贝过来,它就可以即时的显示出这个翻译。

  主持人:好的,那我们在选择语言种类的时候是在哪个方面进行措施?

  尹俊:在下面的话可以选择不同的语言,这里可以选择自动检测语言,或者是下面的各种各样的语言,还有一个很方便的语言是说,有一个很方便的按纽,让你立即转换原语言和目标语言,比如说你要想翻译中文的话,你可以中文翻译到英语的话,就立即转换一下,你可以在这里输入中文,立即就出来了。

  主持人:是的,翻译的结果还是非常快的,非常准确的,那么除了翻译句子,翻译单词可以吗?

  尹俊:翻译单词也是可以的,比如我们来翻译一个成语,人山人海,看看是不是会有一些意外的收获呢,翻译还是比较准确的。

  主持人:是的,其实之前很多网友也反映,就是说谷歌翻译的结果有时候属于堆砌式的,好象比较差强人意,那么我们看到它的翻译质量也在改进,那么我们看翻译的结果前面还有一个小喇叭,这个是用来发声的吗


图:点击单词前面的“小喇叭”按钮可朗读该词

  尹俊:对,这个是用来发声的,当你点击这个喇叭的时候,你会听见这个发出的一个语音的声音,当然如果你输入刚才那句话的话,也会听见它这句话的声音。

  主持人:我们听到这个声音还是非常舒服的,确实非常贴近人声的,那么这个声音我记得之前是通过一些机器引擎来算的,我们Google对声音处理这块是怎么来把握的?

  尹俊:我们对声音处理的话,其实这个声音你听上去是很像人声的,实际上它也确实是基于人声的,实际我可以跟大家简单介绍一下我们Google是怎么做这个文字到声音转换的,我们实际上请了一个声音非常好的像播音员工作一样的人,而且对这个声音质量要求还很高,她不能太性感也不能太沉闷,基本上是一个女中低音的感觉,然后来请她录了二十个小时左右的音频,然后我们拿到这个音频之后,再去把它切成不同的音节,然后能分析出每个音节在句子不同地方它的发音情况,然后有这么一个数据库之后,现在拿到任何一句的这种英文,它都可以用这些音节拼出来语音语调和读法,然后进行算法的处理,可以让它的声音非常的平滑,听上去就向真人发声一样。

  主持人:的确,我们刚才听到了这个效果确实是非常棒的,那么其实我特别感兴趣这个故事背后的这位播音员,付出了二十多个小时的时间。

  尹俊:对,我们对声音的要求还是很高的,比如说她每天我们要求她只能录几个小时,不是连续录的,不能太长,如果她今天感冒了,我们还有专门的程序测试出她的声音有变化,可以让她休息几天再来。

  主持人:那最终这个大概录了多长时间?

  尹俊:整个录下来前前后后要几个礼拜。

  主持人:是的,她平时都读什么,通过读什么来分析她的这种?

  尹俊:读的材料也是我们特别设计的,就是说她的所有的语音语调在这个语言中的发声和发音在句子不同位置的语音语调都必须涵盖在这个材料中。

   主持人:没想到这样一个小小的按纽功能背后有这么一个有趣的故事,那么我们接下来看看谷歌翻译还有哪些不错的功能。刚才说到的翻译文字和句子,网页这块我们很多网友也非常感兴趣,那么它是怎么使用的?

 


图:谷歌翻译的“网页翻译”功能 

  尹俊:在以前谷歌翻译的界面上,用户可能需要在另外一个地方输入网址,但是现在在同一个地方就可以输入网址,比如我现在要翻译Google新闻的界面,那么我可以在这输入Google新闻的网址,那么这时候你可以点一下翻译,这样就可以直接跳到翻译的网站,大家可以看到我们就把这个Google新闻的页面翻译成了中文。

  主持人:当我们把鼠标移到中文翻译结果上的时候,它能显示原文是吗?

  尹俊:对的,有些人可能会喜欢看原文,然后在不懂的时候再看中文,那么我们可以看一下,在右上角有一个选择模式,你可以选择查看原文,那么这时候你可以读原文,那么当你把鼠标移到原文上的时候它就可以显示出翻译的文字。

  主持人:这个功能真的是太棒了,那么我想了解一下除了这个英文和中文之间的翻译,那么其他的各国语言是不是都能够实现这种页面翻译的功能?

  尹俊:对的,这里跟文本的翻译一样,我们也支持所有语言的51种语言的页面翻译功能。

  主持人:其实说到51种语言的时候,我心里也有这样一个疑问,就是说为什么Google现在选择了这样51种语言,那么最早是大概多少种?未来的话是不是还要把六千多种语言全部加进来?

  尹俊:最早的话有几种语言,然后慢慢增加到51种语言,这是一个渐进的过程,我们最初怎么选择语言的呢,其实说起来也很简单,就是我们看在互联网上有多少人使用这种语言,我们会把使用最多的语言列如比较优先考虑的范围。

  主持人:其实我在这也多说一句,虽然说我们全球现在有六千多种语言,但其实每种语言超过1百万人使用的只有140多种,所以说现在Google已经完成了全球三分之一最常用的语言的翻译了。

  尹俊:实际上我想已经涵盖了百分之九十几的用户了。

  主持人:是的,好了,其实在刚才演示完网页之后我们进入第三个环节,就是说翻译文档,这块是怎么实现是的?


图:用户可直接上传文档进行翻译

  尹俊:我们还考虑到用户不仅仅需要翻译文字或者网页,那么他如果自己有个比如说Word文档,他也想翻译一下,那么应该怎么办呢,这里大家可以看到这里有一个链接说上传文档,这时候你可以选择一个文档上传,比如说选择一个文档。

  主持人:当点击这个按纽之后会打开资源管理器,选择文档。

  尹俊:选择文档,这里比如说有一个我们Google中国翻译新功能的一个稿件,这个稿件是用中文写成的,我现在想把它翻译成英文看看,那么我们换一下语言,然后点击这个翻译,这时候这篇文档就会被传到我们的服务器,然后及时进行翻译。

  主持人:翻译速度还是非常非常快的。

  尹俊:对,非常类似网页的翻译,你将鼠标移到上面的时候可以看到,这里我们做了一些特殊的处理,对用户的隐私有所保护,你翻译的文档不会被别人看到,这个网址你也没有办法拷贝送给别人去看,当你想再看一遍翻译文档的话,你可能还需要把文档上传一下,因为我们在服务端也不会做任何的记录。

  主持人:这个功能我觉得在保护隐私这块做的非常好,说实话很多朋友可能想把自己的情书翻译一下,生怕被别人看到,那么刚才尹俊为我们演示了上传文档,上传WordDOC这个文档,那么我想了解一下就是说文档格式的支持这块还能支持哪些格式?

  尹俊:实际上我们可以支持很多格式的文档,比如说Word格式的,甚至电子表格,Excel格式的,还有PDF。

  主持人:PDF也支持,因为我知道现在PDF它是越来越流行了,那么我们也非常清楚有些文档里边它不仅仅是有文字,可能还有图片,那么对于图片这块我们会怎么处理呢?

  尹俊:现在暂时我们还没有办法来翻译图片的内容,因为这个可能需要一些OCR的工作,但是我们正在努力做这块的事情。

  主持人:其实在辞典这块,比如说有些翻译工具已经能通过照相,拍摄通过照片的分析OCR的技术,已经能够达到翻译的结果,我希望未来谷歌翻译也能够在这块实现这个功能。

  尹俊:这已经纳入我们的一个实现计划中了。

  主持人:好的,其实刚才为我们大家演示了三个最最基本的功能,其实还有很多很好玩的小元素,不知道大家注意没注意,比方说除了刚才时时翻译之外,还有一个拼音的功能,能不能在这给我们演示一下,拼音在这个翻译里面起到一种什么作用?

  尹俊:比附说当你翻译英语到中文的时候,这有一个链接可以让你显示中文的拼音,大家可以看到弹出的拼音,其实不仅仅是拼音,你翻译到不是拉丁文字的语言的时候,它也可以显示出以拉丁为主的拼音,比如我翻译到日语,可以看到这里面是日语的所谓的拼音。

  主持人:这个拼音读出来就是日文的发音是吗?

  尹俊:对,我们可以试一下,把它当成英文读一下,听听看是什么效果。听上去好象还不错。

  主持人:我对日语不了解,不太清楚它的准确率,但是我觉得这个可能是我们学习语言很方便的一个小工具,因为有时候我们可能就是想临时突然想,那个词用不同的语言表达是什么意思呢,这时候我们可能也没处请教别人,那么可以工具的发音功能来临时抱佛脚的学一学。

  尹俊:对,可以读出一个虽然不太标准的声音,刚才是拼音的输出,实际上你正在学习印度文的话,或者是阿拉伯文的话,我们还提供了一个很方便输入印度文或者阿拉伯文的小工具。

  主持人:我知道一般输入文字的话得需要专门的输入法是吗?

  尹俊:对,中国用户来说我们已经很方便的有输入法,但是对于输入印度文和阿拉伯文来说,可能还没有这样的输入法出来,那么我们提供了一个非常方便的小工具,就是你可以用在线类似输入法的东西来输入,比如现在有一个印度文,我们可以输入NAMASTE,那么这是它的一个读音,当你按空格的时候它会自动转化成印度文,实际上它就是“你好”的意思。

  主持人:这两面我看直接变成了很奇怪的文字,那我直接就把这个文字复制下来就可以使用了是吗?

  尹俊:对。

  主持人:其实在昨天的时候,大家在私下聊的时候我听你们还讲了一个小故事,好象和一个德国的朋友在通过手机发短信聊天的故事能不能在这给大家再讲讲。

  尹俊:我们在和学生交流的时候,有一个学生给我们讲了一个故事,就是他有一个德国的朋友,他是怎么认识这个德国朋友的呢,说起来和很有意思,其实别人告诉他手机号码,然后他用网上的飞信,然后向德国朋友发短信,然后他不知道怎么输入德语,所以他就拿我们的谷歌翻译,把中文翻译成德文,跟德国的朋友发短信,然后那个德国的朋友很惊讶,说你居然会德语,然后他并没有他不会德语交流了三个月,那个德国的朋友觉得他德语很地道,而且都没看出来他不会德语。

  主持人:这个从侧面给我们大家一个启示,其实谷歌翻译是一个泡美眉的好工具,尤其是全球性的。

  尹俊:可能吧。

  主持人:是的,其实通过刚才这些精采的演示,我相信大家对谷歌翻译已经有了非常全面的了解,那么对于它的翻译功能,其实在网上也有非常多的讨论,比方说我刚刚也在网上查到,有一个文章叫做让谷歌翻译机器崩溃的22个雷人句子,那么这里罗列了很多这样翻译的结果,那么我在做节目之前,也专门在网上实施和对照了一下,因为这个文章是今年3月份发表的,距离现在已经有很多时间了,我想了解一下谷歌翻译是不是已经对这些进行了纠正,我发现结果可能是一半一半的,比方说有些翻译结果已经被修正了,并且修正的比原来还要好,这个确实让我有些吃惊,但是也有些结果它反映就比较迟钝一些,那么在这我们想引入下一个话题,就是说谷歌翻译的翻译质量,它的正确率是有那些影响因素?我们怎么才能把它做到最优呢?

  尹俊:其实刚才说到对谷歌翻译最重要的一个我们实际上是两个东西,一个是算法,就是你如何来做这种翻译的操作,怎么训练它翻译,还有一种就是数据,就是说我们的平行语料,它的来源和质量有多高,那么出现那些翻译的问题呢,很有可能就是因为我们语料中出现了一些问题。

  主持人:那我们目前这些语料的搜集和更新,它会是一个什么频率呢?

  尹俊:我们知道语料对翻译的结果很重要,所以我们对语料的更新也是非常慎重的,就是时间可能会稍微长一些,但是我们仍然在不断的改进过程中。

  主持人:那么就是说其实我们在谷歌翻译的界面上很难看到一个不太显眼有这么一个按纽,就是说它的翻译结果可以提供一个更好的翻译建议,我不知道这块是不是为了让翻译的结果更准确一些,那么用来搜集用户建议的一个窗口?

  尹俊:是这个意思,当你发现这个翻译结果不好的话,你可以提供更好的翻译建议。

  主持人:对我们可以看到有这么一个提供翻译建议的窗口。

  尹俊:这个是我们让用户提供更好翻译建议的一个途径,那么我们会把这个用户提供的翻译建议全部存在一个数据库中,因为现在很多用户很热心,在给我们提供翻译建议,我们现在已经有很多的资料在那里,但是处理他们需要一定的时间,因为大家可以想,我们拿到的正式在训练的平行语料已经导致了这些累人的翻译,那么让用户输入的就更有一些不太准确的地方在里面,所以就更难控制这些,所以采用这些翻译建议的时间可能就会更长。

  主持人:其实我在网上也进行了一些测试,比方说今天上午我测试了一下,就是网络上非常流行的一句话,比方说哥吃的不是面,吃的是寂寞,那么它翻译的结果,比如“哥”这个词,它给翻译成了哥斯达黎加这样一种情况,我想了解一下对于谷歌翻译当中存在不确定的翻译结果,我们是怎么来进行结果显示的,因为我知道有时候它会显示拼音?

  尹俊:基本上是这样的,如果它能理解这个词在句子中的意思的话,它会显示这个意思,如果没办法理解这个词的话,比如说一些很短的词很偏僻的中文,它可能会显示出一些拼音,就是说它虽然不知道这个意思,但是它至少可以告诉你的读音,你至少还可以以这个读音去去请教别人作为一个外国人来讲,另外你刚才说的“哥”的问题,因为“哥”现在很流行,所以刚刚流行起来的,Google可能还需要一定时间去跟上。

  主持人:是的,其实刚才在翻译结果里面,因为我们知道Google它的长项是搜索,那么它的翻译和搜索之间有打通吗?

  尹俊:对,实际上我们很早就有这么一个功能,但是用的人似乎很少,其实后来我们发现,当我们介绍这个功能的时候,大家都这个功能非常有用。

  主持人:可能是不太知道这个功能在什么地方。

  尹俊:比如说大家可以看到,在左边有一些链接,其中第二个链接叫做经过翻译的搜索结果,那么我们可以试试看,这个功能到底是做什么用的,比如说我是一个中国人,那么我说的是中文,比如大家最流行的是什么。

  主持人:甲流。

  尹俊:对,流感,而且大家也知道可能乌克兰的流感非常严重,那么我们特别关心乌克兰语去看一看,看一看他们那边的人是怎么来说流感的事的。

  主持人:乌克兰语怎么描述甲流我是不知道怎么输入的。

  尹俊:你不需要输入乌克兰语,你只要输入流感就可以了,那么我们来翻译一下,搜索一按这个按纽就非常快,它做的一个工作就是把流感翻译成乌克兰语,然后到乌克兰的网页,大家可以看右边这一栏,这一栏就是乌克兰网页它本身的内容,那么为了方便大家我们已经直接把它翻译成了中文。

  主持人:我觉得这个功能确实是发挥了语言翻译的一种及至,它确实很方便的让各国的数据和资料转化成我能看懂的语言,我觉得这个功能应该好好的向广大网友推荐一下,尤其是了解国外的最新信息会非常快的看到。

  尹俊:是的。


谷歌工程师尹俊与IT168软件群组主编参胜利

  主持人:通过刚才的演示我相信很多朋友已经对谷歌翻译有了立体的了解,那么我们接下来还搜集了一些网友的提问,我们在此也正好请教一下Google的工程师,比方说有位问网友问,其实Google和金山曾经联合出品过Google金山词霸这样一款产品,那么它和Google究竟是什么样的关系,那么他们之间是如何来进行分工的,能不能在这稍微给大家解释一下。

  尹俊:Google金山词霸是Google和金山合作的一款产品,大家知道金山是做辞典很出众的一个公司,所以在金山词霸里面,可以看到由金山词霸提供的字典结果,然后大家可以看到在金山词霸里边还有整句翻译的功能,还有网页翻译的功能,其实这是是由Google提供的。

  主持人:也就是说词霸目前完成的还是词汇的翻译,而整句和全文的翻译还是通过Google的技术来实现?

  尹俊:是的。

  主持人:其实我们前段时间也刚刚得知,金山它的另一款产品叫做金山快译全文翻译的,如果按照我们刚才说的流派的话,那么它属于规则式翻译的翻译形式,那么我们也更期待谷歌翻译能够融合两种流派,这样翻译的结果会不会更准确。

  尹俊:一般业界现在看起来比较推崇基于统计的翻译,因为作为Google来讲也比较认可统计的翻译,因为它更容易被扩展,因为基于规则翻译,你需要找很多语言专家来撰写规则,对于某一种语言来说还可以,但是你想拓展到一百多种语言非常的难,基于统计的翻译你只要有这个算法,然后能拿到平行语料的数据,那么你基本上就可以作出这么一个翻译系统。

  主持人:是的,那么再看下一个问题,有的网友问,因为现在软件客户端是非常流行的,我们谷歌翻译其实是通过网页的技术来提供这种服务,那么未来的话有没有可能谷歌翻译做成一个客户端软件来发放?

  尹俊:我们目前没有这样的计划,因为我们Google的理念就是说,如果用户能上网,能有一个浏览器,他就可以获取世界所有的信息,这是我们终极的目标,所以我们认为应用做在网页里面可以让大家很方便的使用。

  主持人:其实最近非常火的就是Chrome OS操作系统,其实我觉得谷歌翻译它作为云服务的一种形势,可能是未来的一个重头戏。

  尹俊:对,我们觉得在客户端毕竟个人的电脑能力还是有限的,利用Google非常多的服务器,非常多的数据资源,可以创造出更好的质量的服务。

  主持人:是的,那么在最早的时候,我记得李开复也经常向我们宣传谷歌翻译的产品,他的比喻就是说一个词汇量最大的高中生这样一个形象,那么我不知道在你们团队的内部,你们给谷歌翻译打分打多少分?

  尹俊:我想可能还不够及格吧,因为我们觉得翻译还有很长的路要走。

  主持人:除了刚才这种翻译句子,包括搜索,那么谷歌翻译还有一些什么保留的工具特色吗?

  尹俊:其实我们并没有保留的功能,可能大家难以发现罢了,其实在左边大家注意到,左边还有一个链接叫工具和资源,这里边提供了很多工具和资源,如果你自己拥有一个网站的话,是非常有用的,比如现在很多人都喜欢写博客,他很容易就拥有自己的网站,那么他怎么把自己的网站介绍给说不同语言的人呢?这里我们就提供了一个非常方便的一个小工具,那么大家可以看到,使用这个小工具非常的简单,它可以让你的网页立刻就能够被说其他语言的人能读懂,第一步是说你可以选择网页的语言,比如说我是一个说中文的人,那么我就是写了一个中文的网页,那么第二步是选择你希望这个网页被翻译到其他的什么语言,我们现在提供了51种语音,你可以选择其中的几种,也可以选择所有的语言,那么这样的话你就可以得到这么一段小的代码,你可以把这段代码贴到你的网页上就可以了,这时候你可以预览,比方说这是你的中文网站,那么在这个网站上,这段代码就插入了这么一个小的语言选择框,那么当你选择语言的时候它就会自动翻译了,比如我是说英语的人来,选择英语的时候它就会把这段网页翻译成英语,那么实际使用过程中已经有网站应用我们的东西了,大家可以看一下,比如说这有一个英文的网站,那么我这个浏览器是中文版的浏览器,那么到这个英文版的网站,它会自动提示我,说是不是要把这个翻译成中文,我可以选择翻译,非常快,结果马上就变成中文了,唯一有一些小遗憾,图片里还没有办法翻译,当我们在这个网站上继续点击的时候,我们来看一看会发生什么样的情况。

  主持人:按照正常的出来还是英文的。

  尹俊:对,当然我们现在已经知道你希望翻译这个网页,所以就自动会把你点击的东西翻译成中文。

  主持人:这个功能真是太棒了,尤其是对一些站长,和一些想推广自己的博客这些。

  尹俊:对,实际上国内已经有很多博客使用我们这个工具。比方说我举个例子来说,像大家最近比较热的射手语音播放器,它有个开发日志也在使用我们的工具,比如你选择语言选择成咱们来看看乌克兰文,那么也就是非常快的一个情况就可以把所有的内容全部翻译成乌克兰文。

  主持人:这个还真是非常的快捷。

  尹俊:对。

  主持人:好的,今天非常感谢Google工程师尹俊能够参加我们的节目录制,今天也是我们Google工程师面对面节目的第一期,未来的话我们会邀请更多的Google优秀工程师到我们IT168视频中心来和大家一起讲解分享精采的产品,精采的故事,好的,这期节目到此结束,谢谢大家观看,谢谢大家。

  尹俊:谢谢。

0
相关文章