国内著名智能计算中心公布核心技术分词研究版(组图) | ||||
---|---|---|---|---|
http://www.sina.com.cn 2005年04月28日10:59 中国新闻网 | ||||
“我们正处在一个科技变革的时代。50年后回过头来看,现在的技术升级将推动整个社会发生翻天覆地的变化。”正如罗伯特·格拉弗斯在演讲中说的那样,纵观世界范围信息技术的发展,西文的信息处理技术要优于中文,根本原因在于与西文相比,中文分词存在的技术难题更大。 随着中国在世界经济体系中的影响力不断增强,中文应用范围也越来越广泛,用户对中文信息的科学的管理的需求也在急速膨胀。在这种背景下,中文处理市场对于中文处理技术的需求也越来越迫切。 海量智能中心(hylanda.com)一直专注于中文信息处理技术领域的基础性研究工作。中文智能分词是其重点研发的技术之一,公司对该项核心技术具有完全的自主知识产权。目前,该项技术在国内处于领先水平,其分词准确率达到99.6%,分词效率为2000万字/分钟。 海量分词技术很好的解决了分词领域中的两大技术难题,即:歧义切分和新词的识别。组合歧义的处理一直是分词领域的难点中的难点,其他的分词技术对此基本未涉及,海量经过不懈努力,在解决组合歧义的问题上取得突破,能对绝大多数的组合歧义进行正确的切分。在新词的识别上,针对不同类型采用了不同识别算法,其中包括对人名、音译词、机构团体名称、数量词等新词的识别,其准确率同样达到了同行业的领先水平。正是在这些分词难点上的突破,才造就了如今海量分词在实际应用中所表现出的优秀品质。 海量智能计算技术研究中心主任,郝玺龙说:“如果没有中文分词,其他一切深入的中文信息处理都无从谈起,海量公司多年来致力于智能计算中文分词技术的研究,此次推出的分词研究版,希望能够为同样关注分词技术发展的学者及爱好者提供一个研究中文智能分词的平台。” 《海量智能分词研究版》可在海量官方网站,各大软件站有下载。《海量智能分词研究版》仅供研究分析和学术交流,所以与正式版本在性能上有一定差别,如果需要正式版本用于商业用途,请与海量智能计算技术研究中心联系。 | ||||