互联网 频道

独家献映:工程师面对面之谷歌翻译探秘

   主持人:没想到这样一个小小的按纽功能背后有这么一个有趣的故事,那么我们接下来看看谷歌翻译还有哪些不错的功能。刚才说到的翻译文字和句子,网页这块我们很多网友也非常感兴趣,那么它是怎么使用的?

 


图:谷歌翻译的“网页翻译”功能 

  尹俊:在以前谷歌翻译的界面上,用户可能需要在另外一个地方输入网址,但是现在在同一个地方就可以输入网址,比如我现在要翻译Google新闻的界面,那么我可以在这输入Google新闻的网址,那么这时候你可以点一下翻译,这样就可以直接跳到翻译的网站,大家可以看到我们就把这个Google新闻的页面翻译成了中文。

  主持人:当我们把鼠标移到中文翻译结果上的时候,它能显示原文是吗?

  尹俊:对的,有些人可能会喜欢看原文,然后在不懂的时候再看中文,那么我们可以看一下,在右上角有一个选择模式,你可以选择查看原文,那么这时候你可以读原文,那么当你把鼠标移到原文上的时候它就可以显示出翻译的文字。

  主持人:这个功能真的是太棒了,那么我想了解一下除了这个英文和中文之间的翻译,那么其他的各国语言是不是都能够实现这种页面翻译的功能?

  尹俊:对的,这里跟文本的翻译一样,我们也支持所有语言的51种语言的页面翻译功能。

  主持人:其实说到51种语言的时候,我心里也有这样一个疑问,就是说为什么Google现在选择了这样51种语言,那么最早是大概多少种?未来的话是不是还要把六千多种语言全部加进来?

  尹俊:最早的话有几种语言,然后慢慢增加到51种语言,这是一个渐进的过程,我们最初怎么选择语言的呢,其实说起来也很简单,就是我们看在互联网上有多少人使用这种语言,我们会把使用最多的语言列如比较优先考虑的范围。

  主持人:其实我在这也多说一句,虽然说我们全球现在有六千多种语言,但其实每种语言超过1百万人使用的只有140多种,所以说现在Google已经完成了全球三分之一最常用的语言的翻译了。

  尹俊:实际上我想已经涵盖了百分之九十几的用户了。

  主持人:是的,好了,其实在刚才演示完网页之后我们进入第三个环节,就是说翻译文档,这块是怎么实现是的?


图:用户可直接上传文档进行翻译

  尹俊:我们还考虑到用户不仅仅需要翻译文字或者网页,那么他如果自己有个比如说Word文档,他也想翻译一下,那么应该怎么办呢,这里大家可以看到这里有一个链接说上传文档,这时候你可以选择一个文档上传,比如说选择一个文档。

  主持人:当点击这个按纽之后会打开资源管理器,选择文档。

  尹俊:选择文档,这里比如说有一个我们Google中国翻译新功能的一个稿件,这个稿件是用中文写成的,我现在想把它翻译成英文看看,那么我们换一下语言,然后点击这个翻译,这时候这篇文档就会被传到我们的服务器,然后及时进行翻译。

  主持人:翻译速度还是非常非常快的。

  尹俊:对,非常类似网页的翻译,你将鼠标移到上面的时候可以看到,这里我们做了一些特殊的处理,对用户的隐私有所保护,你翻译的文档不会被别人看到,这个网址你也没有办法拷贝送给别人去看,当你想再看一遍翻译文档的话,你可能还需要把文档上传一下,因为我们在服务端也不会做任何的记录。

  主持人:这个功能我觉得在保护隐私这块做的非常好,说实话很多朋友可能想把自己的情书翻译一下,生怕被别人看到,那么刚才尹俊为我们演示了上传文档,上传WordDOC这个文档,那么我想了解一下就是说文档格式的支持这块还能支持哪些格式?

  尹俊:实际上我们可以支持很多格式的文档,比如说Word格式的,甚至电子表格,Excel格式的,还有PDF。

  主持人:PDF也支持,因为我知道现在PDF它是越来越流行了,那么我们也非常清楚有些文档里边它不仅仅是有文字,可能还有图片,那么对于图片这块我们会怎么处理呢?

  尹俊:现在暂时我们还没有办法来翻译图片的内容,因为这个可能需要一些OCR的工作,但是我们正在努力做这块的事情。

  主持人:其实在辞典这块,比如说有些翻译工具已经能通过照相,拍摄通过照片的分析OCR的技术,已经能够达到翻译的结果,我希望未来谷歌翻译也能够在这块实现这个功能。

  尹俊:这已经纳入我们的一个实现计划中了。

  主持人:好的,其实刚才为我们大家演示了三个最最基本的功能,其实还有很多很好玩的小元素,不知道大家注意没注意,比方说除了刚才时时翻译之外,还有一个拼音的功能,能不能在这给我们演示一下,拼音在这个翻译里面起到一种什么作用?

  尹俊:比附说当你翻译英语到中文的时候,这有一个链接可以让你显示中文的拼音,大家可以看到弹出的拼音,其实不仅仅是拼音,你翻译到不是拉丁文字的语言的时候,它也可以显示出以拉丁为主的拼音,比如我翻译到日语,可以看到这里面是日语的所谓的拼音。

  主持人:这个拼音读出来就是日文的发音是吗?

  尹俊:对,我们可以试一下,把它当成英文读一下,听听看是什么效果。听上去好象还不错。

  主持人:我对日语不了解,不太清楚它的准确率,但是我觉得这个可能是我们学习语言很方便的一个小工具,因为有时候我们可能就是想临时突然想,那个词用不同的语言表达是什么意思呢,这时候我们可能也没处请教别人,那么可以工具的发音功能来临时抱佛脚的学一学。

  尹俊:对,可以读出一个虽然不太标准的声音,刚才是拼音的输出,实际上你正在学习印度文的话,或者是阿拉伯文的话,我们还提供了一个很方便输入印度文或者阿拉伯文的小工具。

  主持人:我知道一般输入文字的话得需要专门的输入法是吗?

  尹俊:对,中国用户来说我们已经很方便的有输入法,但是对于输入印度文和阿拉伯文来说,可能还没有这样的输入法出来,那么我们提供了一个非常方便的小工具,就是你可以用在线类似输入法的东西来输入,比如现在有一个印度文,我们可以输入NAMASTE,那么这是它的一个读音,当你按空格的时候它会自动转化成印度文,实际上它就是“你好”的意思。

  主持人:这两面我看直接变成了很奇怪的文字,那我直接就把这个文字复制下来就可以使用了是吗?

  尹俊:对。

  主持人:其实在昨天的时候,大家在私下聊的时候我听你们还讲了一个小故事,好象和一个德国的朋友在通过手机发短信聊天的故事能不能在这给大家再讲讲。

  尹俊:我们在和学生交流的时候,有一个学生给我们讲了一个故事,就是他有一个德国的朋友,他是怎么认识这个德国朋友的呢,说起来和很有意思,其实别人告诉他手机号码,然后他用网上的飞信,然后向德国朋友发短信,然后他不知道怎么输入德语,所以他就拿我们的谷歌翻译,把中文翻译成德文,跟德国的朋友发短信,然后那个德国的朋友很惊讶,说你居然会德语,然后他并没有他不会德语交流了三个月,那个德国的朋友觉得他德语很地道,而且都没看出来他不会德语。

  主持人:这个从侧面给我们大家一个启示,其实谷歌翻译是一个泡美眉的好工具,尤其是全球性的。

  尹俊:可能吧。

  主持人:是的,其实通过刚才这些精采的演示,我相信大家对谷歌翻译已经有了非常全面的了解,那么对于它的翻译功能,其实在网上也有非常多的讨论,比方说我刚刚也在网上查到,有一个文章叫做让谷歌翻译机器崩溃的22个雷人句子,那么这里罗列了很多这样翻译的结果,那么我在做节目之前,也专门在网上实施和对照了一下,因为这个文章是今年3月份发表的,距离现在已经有很多时间了,我想了解一下谷歌翻译是不是已经对这些进行了纠正,我发现结果可能是一半一半的,比方说有些翻译结果已经被修正了,并且修正的比原来还要好,这个确实让我有些吃惊,但是也有些结果它反映就比较迟钝一些,那么在这我们想引入下一个话题,就是说谷歌翻译的翻译质量,它的正确率是有那些影响因素?我们怎么才能把它做到最优呢?

  尹俊:其实刚才说到对谷歌翻译最重要的一个我们实际上是两个东西,一个是算法,就是你如何来做这种翻译的操作,怎么训练它翻译,还有一种就是数据,就是说我们的平行语料,它的来源和质量有多高,那么出现那些翻译的问题呢,很有可能就是因为我们语料中出现了一些问题。

  主持人:那我们目前这些语料的搜集和更新,它会是一个什么频率呢?

  尹俊:我们知道语料对翻译的结果很重要,所以我们对语料的更新也是非常慎重的,就是时间可能会稍微长一些,但是我们仍然在不断的改进过程中。

  主持人:那么就是说其实我们在谷歌翻译的界面上很难看到一个不太显眼有这么一个按纽,就是说它的翻译结果可以提供一个更好的翻译建议,我不知道这块是不是为了让翻译的结果更准确一些,那么用来搜集用户建议的一个窗口?

  尹俊:是这个意思,当你发现这个翻译结果不好的话,你可以提供更好的翻译建议。

  主持人:对我们可以看到有这么一个提供翻译建议的窗口。

  尹俊:这个是我们让用户提供更好翻译建议的一个途径,那么我们会把这个用户提供的翻译建议全部存在一个数据库中,因为现在很多用户很热心,在给我们提供翻译建议,我们现在已经有很多的资料在那里,但是处理他们需要一定的时间,因为大家可以想,我们拿到的正式在训练的平行语料已经导致了这些累人的翻译,那么让用户输入的就更有一些不太准确的地方在里面,所以就更难控制这些,所以采用这些翻译建议的时间可能就会更长。

  主持人:其实我在网上也进行了一些测试,比方说今天上午我测试了一下,就是网络上非常流行的一句话,比方说哥吃的不是面,吃的是寂寞,那么它翻译的结果,比如“哥”这个词,它给翻译成了哥斯达黎加这样一种情况,我想了解一下对于谷歌翻译当中存在不确定的翻译结果,我们是怎么来进行结果显示的,因为我知道有时候它会显示拼音?

  尹俊:基本上是这样的,如果它能理解这个词在句子中的意思的话,它会显示这个意思,如果没办法理解这个词的话,比如说一些很短的词很偏僻的中文,它可能会显示出一些拼音,就是说它虽然不知道这个意思,但是它至少可以告诉你的读音,你至少还可以以这个读音去去请教别人作为一个外国人来讲,另外你刚才说的“哥”的问题,因为“哥”现在很流行,所以刚刚流行起来的,Google可能还需要一定时间去跟上。

  主持人:是的,其实刚才在翻译结果里面,因为我们知道Google它的长项是搜索,那么它的翻译和搜索之间有打通吗?

  尹俊:对,实际上我们很早就有这么一个功能,但是用的人似乎很少,其实后来我们发现,当我们介绍这个功能的时候,大家都这个功能非常有用。

  主持人:可能是不太知道这个功能在什么地方。

  尹俊:比如说大家可以看到,在左边有一些链接,其中第二个链接叫做经过翻译的搜索结果,那么我们可以试试看,这个功能到底是做什么用的,比如说我是一个中国人,那么我说的是中文,比如大家最流行的是什么。

  主持人:甲流。

  尹俊:对,流感,而且大家也知道可能乌克兰的流感非常严重,那么我们特别关心乌克兰语去看一看,看一看他们那边的人是怎么来说流感的事的。

  主持人:乌克兰语怎么描述甲流我是不知道怎么输入的。

  尹俊:你不需要输入乌克兰语,你只要输入流感就可以了,那么我们来翻译一下,搜索一按这个按纽就非常快,它做的一个工作就是把流感翻译成乌克兰语,然后到乌克兰的网页,大家可以看右边这一栏,这一栏就是乌克兰网页它本身的内容,那么为了方便大家我们已经直接把它翻译成了中文。

  主持人:我觉得这个功能确实是发挥了语言翻译的一种及至,它确实很方便的让各国的数据和资料转化成我能看懂的语言,我觉得这个功能应该好好的向广大网友推荐一下,尤其是了解国外的最新信息会非常快的看到。

  尹俊:是的。

0
相关文章