新闻中心新浪首页 > 新闻中心 > 综合 > 正文

自动翻译的实现


http://www.sina.com.cn 2006年11月21日03:10 新闻晨报
□时震

  大概每一个外国文学爱好者都遇到过译本不好的尴尬事———如果只是随便看来消遣的书,看不下去也就罢了,如果是自己喜欢的作家,则是件折磨人的事———一部分英文足够好的人会选择去找原文来看,而像我这样英文不够好的大多数,则只好一边打心眼里咒骂这破烂的翻译,一边硬着头皮看下去。

  当计算机上出现“全文翻译”软件时,我也曾认为是救星降临了,但使用过一次才

发现,所谓的“全文翻译”软件,不过是一个自动的英汉词典,将单词一个挨一个地翻译成中文,然后再按照顺序排在一起———机器翻译的东西,根本就没法看。

  在那之后,机器自动翻译沉寂了很久,以至于它是何时又回到我们的屏幕上的,我完全没有注意到———最近一次接触到机器自动翻译,只不过是因为一次偶然,误点了

  Google搜索页面上“翻译此页”的链接———然后发现,虽然文法依然一塌糊涂,但我竟然能够读懂其中的一些段落了。

  总之是比“东方快车”之类的大号英汉词典有了长足的进步。

  之后我才了解到,机器自动翻译的复兴,始于2005年的一次NIST(美国国家标准与技术局)举办的机器自动翻译大赛———结果是意料之内的,Google拿下了那次比赛的冠军。

  虽然在事后有人指责,Google的胜利是有违公平原则的———大多数的参赛者都只用了一台计算机,而Google则同时动用了1000台服务器———但是,得了吧,不同语言之间的相互翻译,你认为一台计算机能干出些什么来?

  事实上,目前最先进的翻译算法,也就是令Google获胜的“统计式”翻译算法,其基础是统计与分析某一单词在这一语言环境中被运用的概率与位置,来寻找词汇的排列规则;而另一种“很有前途”的热门算法,“类比式”算法,则是分析数以亿计的现成的翻译作品,当需要翻译新的语句时,在现有的数据中搜索与之最相似的语句,来进行翻译———搜索和海量的数据分析,无论是哪一种,都是Google的专长,想不服都不行。

  机器自动翻译的曙光已经在

  Google身上展现,而与此同时,另一道曙光也在渐渐明朗———那就是困扰IT界很久的图像自动识别的问题。

  来自美国卡内基·梅隆大学的年轻教授路易斯·范提出了一种与“类比式”翻译异曲同工的天才想法———通过一个叫做ESPGame的游戏,标记并索引网上所有的电子图片———由系统随机抽取电子图片发送给两个不同的游戏者,要求游戏者用一个词或是一段简洁的语句来描述这幅图,当两人描述相符时,则图片标记成功,存入索引数据库(如果你对这个游戏感兴趣,可以登陆espgame.org来参与这个游戏)———这就好比你教一个孩子看图说话,这是苹果,那是生梨……只不过这是节超长的看图说话课,拥有最多的老师、最多的图片以及记忆力最好的“孩子”———如果能保持时时刻刻都有5000人在线,也需要数月的时间来完成网络中所有图片的索引。

  然而其意义的确非同凡响———想想看,电脑自动识别我们的世界,不少路易斯·范的信徒都认为,那正是实现《黑客帝国》电影中的虚拟世界“MATRIX”的基础———而路易斯·范,就是那位伟大的“建筑师”。


爱问(iAsk.com)

收藏此页】【 】【下载点点通】【打印】【关闭
 
 


新闻中心意见反馈留言板 电话:010-82612286   欢迎批评指正

新浪简介 | About Sina | 广告服务 | 招聘信息 | 网站律师 | SINA English | 产品答疑

Copyright © 1996-2006 SINA Corporation, All Rights Reserved

新浪公司 版权所有