互联网 频道

独家献映:工程师面对面之谷歌翻译探秘

  【IT168 特别策划】一年前开始策划,历时一个月紧张拍摄制作,IT168虎年开篇巨制《谷歌工程师面对面》系列视频节目今日正式推出。作为《软件大讲堂》开播三年的献礼,本次节目特别获得谷歌中国公司大力支持,一网打尽谷歌十余项最热应用:谷歌搜索、谷歌翻译、谷歌地图、谷歌拼音输入法、谷歌音乐、谷歌浏览器、谷歌购物搜索、谷歌手机地图、iGoogle、谷歌云计算……15位天才谷歌工程师、项目经理云集IT168视频中心,为大家献上精彩的技术演示,与大家分享技术背后的妙事趣闻。谷歌,不仅仅是搜索!IT168带您走进真正的谷歌世界!


专题地址:http://focus.it168.com/focus/201001/google/index.html

  谷歌工程师面对面第1期——打通谷歌翻译七经八脉

  主题:谷歌翻译
  嘉宾:谷歌软件工程师 尹俊
  主持:IT168软件群组主编 参胜利
  播出时间:2010年1月11日
  论坛活动:最雷人的谷歌翻译大征集


《谷歌工程师面对面》第1期:打通谷歌翻译七经八脉(原视频地址


尹俊 谷歌翻译工程师

  嘉宾简介:

  尹俊,男,谷歌软件工程师。2005年7月毕业于南京大学计算机科学与技术系,获得硕士学位。2005年7月至2007年9月,就职于IBM上海全球化软件实验室。2007年9月加入谷歌工程部,负责谷歌图书的网页引用功能的质量改进,以及针对中日韩语言的本地化完善和多项新功能的开发。2008年4月参与组建谷歌翻译上海开发团队,负责谷歌翻译前端服务系统的重构,以及多项新功能的设计和开发,包括多种文档格式的翻译支持、网站翻译工具、文本语音朗读等等。

  访谈记录:

  主持人:亲爱的观众朋友们大家好,您现在收看的是IT168软件频道为您推出的软件大讲堂特别节目,今天是我们筹备已久的Google工程师面对面的第一期,今天我们请来了哪位Google的工程师呢,首先请这位帅哥自我介绍一下好吗?

  尹俊:帅哥不敢当,我叫尹俊,是Google的工程师,现在在上海工作,我是2007年加入Google的,现在已经两年多的时间了,我现在的主要项目是做谷歌翻译。

  主持人:我相信大家通过尹俊身上这个体恤衫已经发现了,这个是他们专门定制的一款Google体恤衫,Google的翻译其实这几天也刚刚改版全面上线,那么在开始个主题之前,我想先给尹俊提一个问题,你知道现在世界上的语言有多少种?

  尹俊:具体的数字我说不上来,但是我曾经看过一个数据,大概有六千多种。

  主持人:差不多,是的,今天早上我也专门去补了补课,搜索一下,其实我们现在全球六十亿人两百多个国家,两千五百多个民族,那么现在语言的种类其实具体到多少种,大家学术界也在打架,那么大概也就五六千种的样子,那么五六千种语言大家沟通起来是非常麻烦的事情,这时候就需要我们有一款便捷的工具,那么这时候呢,谷歌为我们提供这样一款非常好的工具,它目前支持的语言达到51种,这样庞大的一个系,那么我们很多网友也非常关心,那么Google它的翻译和我们其他的翻译软件的翻译有什么样不同的特色,目前他们在原理上有哪些不同的流派,那么先给我们从原理级介绍一下。

  尹俊:我可以简单说一下,现在在机器翻译界大概有两个流派,就是您刚才说的流派,一个是基于规则的翻译,这个可能发展比较早,就是说我有一个语言A到另外一个语言B的话,我可能先要分析两个语言不同的语法,然后定义从某一个A的结构到B的结构怎么转换,所有这些规则写下来之后,再配合字典词汇的转换达到一个翻译的目的。

  主持人:其实这种方法我感觉像我们在学校学习的过程,记单词、学语法,然后再根据这些拼出来我们翻译的一个结果,那么第二种流派是什么样子?

  尹俊:第二种流派就是Google现在所采用的这么一个翻译的方法,它是基于统计的方法方式,它主要的过程是说,它会拿一些平行的语料,所谓的平行语料,就是说我有一个文章,它既有A语言的版本也有B语言的版本,然后我们会对这个文章进行分析,知道某些A语言的句子对应某些B语言的句子,然后再进行分析之后,我们可以用统计的方式得到在某一些词组或者某一些句子在某种情况下可以翻译成另外一种语言的句子。

  主持人:那么刚才小尹提到一个词是“语料”,那么语料在这里是怎么解释呢,可能有些朋友不太清楚。

  尹俊:所谓“语料”就是语言的材料。

  主持人:可能是一些大量的这种范本?

  尹俊:对大量的范本。

  主持人:就是把它作为一种原材料,然后我们和这种进行对比,哪个能对上,它可能就是这个意思,其实我们知道Google最强项的就是搜索技术,但是翻译这块说实话,它的要求的语料,它的搜集肯定是要求非常精准的,我不知道我们谷歌翻译它的语料搜集都有哪些途径,都是从哪里找到这些标准的翻译结果呢?

  尹俊:其实语料基于统计的翻译是挺重要的,所以我们尽量要保证语料的准确性和正确性,所以我们举个简单的例子来说,最早的一些语料大家可能能想到的就是联合国的一些官方文件,因为我们知道联合国有五种官方语言,它任何一个文件发布出来可能都会被翻译成五种语言,那么我们这个就是一个非常好的语料,那么其他的一些语料我们可能从一些可信任的网站或者一些材料来找,基本上是一些可信任的途径。

  主持人:好的,刚才也说到了一些语料方面搜集的情况,那么我了解的情况,比方说目前通过联合国这边,通过Google商务这边搜集到大量的素材,那么从基础的网页上面也会搜索到一些最新的翻译的结果,那么Google的翻译项目,我不知道它是一共实施了有多长时间了,发展到现在是一种什么样的规模,网友也非常感兴趣,能不能先给大家介绍一下团队方面的情况?

  尹俊:Google的翻译项目最早是从美国Google的总部开始的,已经有几年的时间了,然后在去年的时候,中国组织了一个翻译的团队,加入了美国这么一个开发的过程。然后现在基本上团队分工是说,在美国的这个团队,因为他们是从最基础的做起的,所以他们负责整个后台的搭建,还有一些算法和质量方面的改进,然后因为我们有很多的服务器,在美国那边所以他们也负责产品的发布和维护,部署和维护,然后在中国这边,我们主要负责前台的用户体验的改进,然后还有一部分的跟质量提高相关的一些质量改进,也是后台的内容,然后还有就是跟美国工程师进行一个联换的对于产品的维护方面的工作。

  主持人:现在我们中国团队的人员大概是多少?

  尹俊:大概有七八个人这样子。

0
相关文章