跳转到路径导航栏
跳转到正文内容

“必应词典”是怎么炼成的

http://www.sina.com.cn  2010年11月14日01:39  新京报

  

“必应词典”是怎么炼成的
必应词典中的例句朗读播放器出镜的小伙子是参与该项目的微软亚洲研究院员工马特·斯考特(微软亚洲研究院供图)。
“必应词典”是怎么炼成的
“必应词典”是怎么炼成的
“必应词典”是怎么炼成的
“必应词典”是怎么炼成的
微软和日本东京大学联合研制的“电子辅助眼”。

  本报记者 刘铮 摄

  近期的“微软创新日”活动展示了微软研究院以及它和高校合作完成的各种科技发明,显示出蓬勃的创造力。很多产品都不是拍拍脑袋就可以做出来的,它们之中既包含有聪明的创意,简单的技术应用,也包含有艰深的数学运用和丰富的人文内涵。微软研究院是如何组织实现这些技术发明的?带着这个问题,记者采访了微软亚洲研究院院长洪小文博士。他向记者讲述了“必应词典”的研发过程。

  1 成果 网络词典会“说话”

  当你进入“必应”的网址后,你会发现在输入栏上方的选择栏的右边有一项是“词典”。点开之后,在输入栏中输入一个英文单词,不仅可以看到下面的英文解释,更下面还有相应的英中对照的例句。洪小文说,这些例句都是电脑自动找出来,机器翻译的,有的加入了一定的人工修改。它们以“靠谱程度”为标准排列,最靠谱的句子排在最前面。在排列在前面的句子后面,通常会有一个小喇叭标志和一个小电视标志。点击小喇叭标志,会有一个男声给你朗读这个句子。洪小文说,这个声音完全是机器读出来的。记者感觉读音和真人语音的相似程度相当高。而点击小电视标志,会出现一段视频,一个长得相当“萌”的小伙子会为你读这句话,不但声音很像真人,而且口型也分毫不差,但这段视频也是机器合成的。

  2 开端 帮助写作的“愿景”

  “必应词典”是一款功能丰富强大的软件,并且通过汲取网络资源而变得越来越强大。洪小文说,“必应词典”的前身是微软亚洲研究院的“英库”项目。那么,这个项目是如何开始的呢?

  洪小文说,微软研究院(包括微软亚洲研究院等6家研究院)提倡“以情境驱动的研究”,人们先提出一个关于未来的“愿景”,然后通过自己或者多人合作研究来实现这个“愿景”。比如说洪小文领导的“英库”项目,开始的时候就是自动机器翻译、自然语言理解的学术研究。大概五六年前,洪小文和一些同事觉得这个技术越来越好了,于是把自己写作时的情境加进去,开始开发一个应用软件。

  记者对此非常感兴趣的是:“情境”也好,“愿景”也好,都掺杂有复杂的情况和人类的感情,如何把它用科学的语言描述出来,写进一个项目申请计划书呢?洪小文的回答出乎记者的意料:根本没有这样的计划书!

  洪小文说,微软研究院的研究项目都没有正式的计划书,也不用申请经费。一般来说,几个人在喝茶喝咖啡的时候提出一个想法,有兴趣就可以做,领导只提供意见。微软亚洲研究院的员工不吃“科研经费”,他们有固定工资,领导还会奖励他们的成果。

  3 过程 如何排除“雷人英语”

  英库也是一样,没有正式的项目申请书,它开始得很自然,就是几个人为了解决自己英文写作时遇到的问题。英文和中文互相转换的问题很多,这些问题被分解,一一解决。比如说,英文每一个字都有一个空格,中文的字都是连着的,所以中译英时如何“断句”就是个大问题。比如说“一次性”被翻成了“one time sex”,这就是因为把它错误地断成了“一次”和“性”。借助“自然语言理解”的研究成果,可以比较好的完成这个“断句”的工作。

  运用微软研究院一直在搞的数据挖掘技术,“英库”的研发者把网上所有有中英对照的句子收集起来,通过分析这些句子,可以做一套模型。这样,自动机器翻译、自然语言理解和数据挖掘等技术就天衣无缝地结合起来。

  4 升级 可爱小伙视频现身

  那么,那个很“萌”的读英文小伙又是怎么被加进去的呢?洪小文说,开始的时候他们就想让“英库”用在写作上,后来发现很多人用它发音学英文,所以负责语音的研究主管和负责自然语言的研究主管在咖啡间一碰面,就决定把“语音合成”的技术成果加进去。机器把每个单词都读出来不难,难的是如何抑扬顿挫把整句读出来。通过研究院对自然语言的理解,“英库”加进了读句子的功能。后来他们又说,能不能让人也能够看视频学口型啊,于是又加入了电脑合成的视频。

  在视频中出现的小伙并不是演员,而是“英库”的开发者之一,美国小伙马特·斯考特(Matt Scott)。他在一个实验室里照一篇文章读了30分钟,研究人员把他的口型和声音都录下来了。通过实时的二维视频合成技术,技术人员可以让斯考特的影像讲任何话,方法就是把语音对应的一个一个口型,加上中间的过渡口型实时调出来,合成一段平滑的活动影像。这样,微软研究院的电脑影像技术也派上了用场。正如洪小文所说,“以情境驱动的研究是不同领域合作的最好催化剂”。

  新知专题采写/本报记者 刘铮

  本专题感谢:洪小文(微软亚洲研究院院长)

  ■ 目击

  微软晒出的新发明

  在近期举办的2010年度微软创新日活动中,记者看到了很多新鲜的发明。

  手机之类的移动终端越来越多的连接到互联网,耗电就是一个大问题,微软印度研究院研发的“云计划支持的节能高效移动通信”就是为解决这个问题开发的技术。现在,手机从互联网上下载数据的时候,无论网络是否通畅,都要耗费一样多的电能。“云计划支持的节能高效移动通信”会让互联网的数据先传送到一个云计算中心,云计算中心一方面对传输的数据进行压缩优化,另一方面会根据网络的通畅程度来确定手机的用电量,以达到省电的目的。

  微软雷蒙德研究院和中国科学院国家天文台合作的“万维天文望远镜”项目是研究院和高校合作的典型例子。在这个软件界面出现之前,美国航天局和世界各地的天文台都创造和收集了大量的宇宙图像,但这些数据分布在各处,彼此很难分享。“万维天文望远镜”就是为了解决这个问题而研制的。无论你放大软件界面上的任何天空区域,都能调出关于这个区域的大量图像,用户会有一种“实时在宇宙中漫游”的感觉。

  除了“必应词典”,必应还可能整合其他一些微软研究院的研究成果,其中最有趣的是“基于轮廓的图像搜索引擎”。比如说,在草图板上画一个圆,可以搜出月亮、太阳、地球等图像;而画两个圆,可以搜出两个并排的寿司和自行车;如果在两个轮之间简要地画上一个三角形的梁,搜出来的图像大多数都是自行车。

  最神奇有趣的发明还要数微软和日本东京大学联合研制的“电子辅助眼”。这其实是一种装有电子传感器的眼镜,它可以和电脑相连,感知使用者的目光聚焦在何处。比如当使用者看一只猫时,系统就会知道他在看哪里,并且通过图像识别软件,系统可以分析出来他在看一只猫。未来通过这种电子辅助眼,双手残疾的人可以通过看字母表来打字,而普通人在逛超市的时候,看到哪个商品,系统就会显示出这个商品的参数,以及同类商品的价格。

留言板电话:010-82612286

新浪简介About Sina广告服务联系我们招聘信息网站律师SINA English会员注册产品答疑┊Copyright © 1996-2010 SINA Corporation, All Rights Reserved

新浪公司 版权所有