搜狐副总裁王小川发言

http://www.sina.com.cn 2007年04月27日21:47 中国新闻周刊

  张楚:曾司长从知识产权,特别是专利许可方面对输入法的问题做了一些专业介绍,这个问题讨论得越来越深入和实际了。Google和搜狐的争议,我觉得可能比较新,内容比较杂,而且有许多技术问题,不如让搜狐的王小川副总裁介绍一下,让大家更加有一个感性的认识。

  王小川:各位领导,专家,首先从搜狐跟Google这个专利之争,我谈一些我们的看法。我想先说一下大的背景,对于搜狐跟Google专利之争,分四点来讲。

  第一点,就是冲突,打起来了,怎么讲呢?现在我们跟Google打起来了。我们不光谈保护,也要看它背后的原因,看是不是有经济、文化和技术之间的冲突。

  我觉得中国和美国比起来,我们整个是有知识,没产权!

  怎么讲呢?到深圳那边去看,有很多工厂里面很多的劳工,很辛苦,天天加班,拿着微薄的薪水,我们付出了自己的劳动,但是品牌是别人的,技术是别人的。我去了日本,又看了美国一些情况,他们现在品牌下面蕴藏的技术也好,专利下面蕴藏的技术也好,都是中国人在做的,实际情况这种知识的创造有非常大的一个比例是中国人做出来的,但最后产权是别人的,这是一种现状。我觉得这种冲突就代表的是国力之间,或者经济文化之间本身的一个较量,我觉得中国在经济在发展的时候这种冲突会越来越明显。

  第二个是现状。提到互联网,昨天有一个刚刚出来的报道,说美国的Google已经取代了微软,成为最有价值的品牌。我们可以看见一个国家或者一个企业的强盛,已经从硬件制造转向了软件,再转向了互联网。Google在纳斯达克的表现也是超过微软的,所谓自由等等的文化也是高于微软的,现在整个互联网已经成为了一个非常强大的品牌力量。我觉得中国也会同样有这个现象,互联网在

中国经济当中的位置也会逐步加强。

  第三点,我觉得就是机会。互联网在中国我觉得是可以做出更多的知识产权来,真正跟国际的力量去竞争。

  为什么这么说呢?我觉得在99年的时候一个技术人员的薪水大概是在三千块钱不到,到今天,比如搜狐研发中心的技术人员平均薪水高过一万块钱。我们可以吸引一批优秀的人才加入这个公司,而且做出来的成果也不是外包的,是自己的。从人员的招聘、培养,我们已经比传统软件或者硬件制作上做得更好一些,对人才的吸引和日后的发展给了更多的空间,所以我觉得也更有机会在这个领域里面做出自己的知识产权来,这是背后的一个动力。

  说到拼音输入法,事实上应该是星星之火的第一枪打起来了,这是怎么一个情况呢?我想先介绍一下输入法本身的背景。82年的时候,当时的五笔输入法在电脑领域里面把汉字信息化,能够输入,做出了一个巨大的贡献。如何输入汉字,或者让中国人输入更快,我把它放到一个高度来,我觉得它和袁隆平培植的杂交水稻是一样的,输入更加便利就会使得更多的中文信息进入互联网。

  实际上,在现代的社会里面除了物质以外,精神领域和文化的东西同样很重要。我们出版的东西、互联网的网页等等,通过提高输入的速度,能够起到全民文字表达和信息分享能力的支撑。说简单一点,如果我们每个人打的速度快了一倍或者两倍,我觉得中国出版的书会更多,在互联网上发现中国的文章也会更多,这本身也是和经济文化相同步的一个事情。

  输入法的研发的社会价值我们公司很早就看到了。这里面就存在一个问题,现在中国的专利里面输入法的专利是比较多的,但是在我们看来这种专利可能在使用性上走偏了一个方向。我们拿五笔和拼音做一个对比,这两种编码的不同有什么区别呢?五笔是典型的用人去适应机器,靠人去记忆和识别,以保障每次敲出来的键打出来的字是不重码的。但是到拼音的领域之后就变成另外一个问题了,就是机器去适应人。我们生下来之后首先学的就是拼音,不是汉字,小孩不懂汉字,说的是拼音,外国人如果学中文的时候不会写字,就会用拼音来读,所以拼音本身对中国人来讲是最基础的一种表达方式。但是它的缺陷就在于重码率特别高。这样在输入的时候效率就很低了,因为选择很多。

  技术的进步就是把人适应机器变成机器适应人,怎么解决这个重码?字的重码率很高,一个词的时候重码率就低了,当然如果一句话的重码率就更低。接下来就要用人工智能的方法,用程序去实现,而不是简单的去做编码,这也是下一步的发展方向。

  我可以预言,在中国未来99%的大众还会继续用拼音。如何使得拼音输入速度更快,里面有两个问题要解决。

  第一个是词汇,新的词是否有,比如现在输李宇春,输房奴,这些新词在我们词库里面是没有的。我们要做一种词汇本身的发现,我们怎么去构建这个辞典,这里面有技术,也有我们人工的劳动。

  另外第二个问题,是指的输入的时候,当敲一个精华,我究竟该给你精华素的精华,还是给净化空气的净化,怎么提高你的速度?这个方面我们用了一个新的技术方法来实现它,我们把互联网看作大的一个使用库,我们看这个精华到底应该出现哪个呢?我们看精华和净化在互联网出现的次数是不是多,如果多就证明大家用的多,或者在互联网上表达的多,因此当用户输入的时候更有可能输入这个词,所以我们在互联网上一统计,我们发现精华比净化这个词使用率高五倍,也就是如果敲精华的时候有87%的概率敲精华,只有10%几敲净化,因此我们这种实践方法是通过互联网上。另外词库这种东西放在本机来用,要把它的空间尽量缩小,由于互联网纠错的问题等等问题,最后这个词库的选择是非常精心选择的过程,它不是简单词的累积,而是你的哪些词是怎么对应的,或者这个音究竟用哪个词去注解它,覆盖它,就像我们用词霸翻译一样,我们输入这个英文的解释该是怎么样的东西,构造了这么一个辞典。

  这次事件里面是怎么一个情况呢?

  第一个大家已经发现的,我们也已经公开了我们的声明,甚至Google已经公开道歉了,就是他用了我们的词典,这个词典不是放在网上就可以直接拷过去用的,而是把它做编码放在我们的输入法软件里面,供用户下载的。

  但这个词典几乎是原封不动的放到了Google辞海里面去,他号称是通过他的搜索引擎技术去学习的东西,但是从大小也好,重合度也好跟我们是非常雷同的,所以这方面我不需要做太多的解释,已经有了一个定论,Google已经用了我们的辞典,而且他不仅用了一次,是把两个版本的辞典做了一个合并放进去的,所以这种行为来讲并不是一个技术人员随机用了这个辞典就不管了,而是有意的使用,大家的规模都是一样,这是对版权很恶意的一个侵犯。

  如果去掉这个词典之后,Google就输不出李宇春这样的词汇出来了,会出现若干个词汇,难度加大很多,甚至出现一个错误,输入泰这个字的时候,他会第一个出现大,为什么?因为大要的大是一个多音字,其中也有泰的读音在,但是大的词频很高,所以就放进去了,所以这个辞典对它有是很大的优化和保障的,这点就不多讲了。

  另外就是专利这块,我们这种创新的方法通过互联网,通过搜索引擎怎么学习语言库,这个专利申请的时间是在06年发布的时候,搜狐方面一直非常注意这方面的事情。Google在技术创新代表了世界最领先的水平,现在对我们的抄袭,看得出我们目前的路走的是对的。我们的效果比Google的更好,也说明在互联网领域我们可以做出更多的东西来。

  往下的时候我觉得会有很多的挑战,刚才温秘书长也讲了,一方面来说,这种事情判断起来会很有难度。第一点,对于互联网公司来讲,给大家看到的就是网页,它的技术都是藏在后台的,不像咱们的手机或者一个产品,一下就把它放在用户的面上,比如词库的方法,它的思想大家一看就能接受能理解,但是并不是放在一个我们的软件里面就用到的,而是在自己的服务器里面去做生成,这个藏在很后面,调查取证据很难。

  第二方面,损失很难界定,很多人说这个输入法是免费的,有什么意义?互联网现在叫做眼球经济,首先讲的就是我怎么吸引大量的用户进来,只要用户量大了我们就有商业的价值。所以很多人都说输入法不是卖钱的,就是让网民用,在用的时候跟搜索引擎做连结,让大家引导搜索,引导品牌的提升,这种价值的估算和评估也会存在一个难度。

  另外我们发现在舆论上也受到一些阻力,我相信这个未来会改变,现在是怎么样的现状呢?我们一开始是著作权,著作权本身而言Google已经认可了,他们是犯错误了。但是对专利来讲,Google说创新是他们的精神,我们觉得Google是侵犯了我们的专利,Google说我们有自己的专利在,我就发现舆论的报道就变成什么标题呢?叫做搜狐逼Google亮出专利。我们现在手上有专利,Google在这方面还没有申请专利,只是挂了输入法的一个词,但是跟软件的思想是没有任何关系的专利,并且也没有得到授权,这个事情拿出来对国内国民来讲,就属于完了,你咬了Google,Google把枪掏出来了,你死定了!

  我感觉这是大家缺乏一种自信心,一看到国外的企业有技术,所谓有技术之后立刻自己就软了,这是一种意见。另外一种就是意识不够,网民觉得谁好用就用谁的,他并不知道这是损害我们利益的。我们在平常生活当中用手机也好,用麦克风也好,可能里面都有国外的专利在,我们都在给国外交钱。

  这件事情我们觉得自己是在理的,因为知识产权或者说专利本身保护的是创新,保护的是领先的,既然不能领先我们就得不到保护。Google自称在04年拿到专利,如果跟输入法有关系,他没有做实际的研发,实际上是阻碍大家真正做创新,所以这种情况下我觉得需要通过搜狐Google的事件,激发中国所有这样的企业加强申请知识产权或申请专利,保护知识产权的意愿。

  现在,从总体来看美国的科技比中国领先。互联网作为我们获得知识产权的一种起点,它里面本身的冲突代表了我们跟国际知名品牌或者文化去做一个正式竞争较量,这只是一个开始发展的起点。

  谢谢大家!

[上一页] [1] [2] [3] [4] [5] [6] [7] [下一页]


发表评论 _COUNT_条
爱问(iAsk.com)
不支持Flash
不支持Flash