改进中文分词技术 知识管理领域得解
在信息量猛增,逐渐呈现爆棚趋势的今天,做为接收信息及传播信息量最大的互联网行业更是一直被一个问题困扰着,那就是面对网站里那些缤纷繁多的信息,如何让用户快速准确搜索定位到自己所需要的资源。而中文分词技术的停滞不前便是一直阻碍中文搜索质量提高的至关重要的因素。
英国著名的智能搜索引擎公司Autonomy在进入中国的时候也遇到了同样的问题,以西文处理技术处理中文时往往达不到预想的精准效果。根本原因在于与西文相比,中文分词存在的技术难题更大。
对于中文来说,词是承载语义的最小单位,这就好像把英文单词之间的空格都去掉,我们看到的是一片没有意义的字母。因此,中文自动分词就成为中文知识管理系统必须解决的问题。单个汉字一般很难单独表达一定的含义,而中文的词是没有自然分隔符的,需要采取一定的技术手段将词准确的分离出来,西文则不同。所以,西文基本上不用经过分词就可以直接进入到检索技术、短语划分、语义分析等更高一层的技术领域,而对于中文,只有越过这个技术瓶颈问题,分词的准确率足够高、分词速度足够快,中文的信息处理技术才有可能和西文的信息处理技术在一个起跑线上。
早在建国初期,国家就投入了大量的人力物力研究中文分词技术。然而几十年过去了,中文分词准确率仍然在97%以下徘徊,而这3%的差误率便让很多中文信息智能处理的下一步工作无法开展。
西文搜索技术出众的Autonomy公司最终选择采购由海量公司(bjhailiang.com)提供的智能中文分词技术,集成到其原有系统中,获得了理想的效果。
Autonomy中国区首席代表武昕这样评论海量的分词技术:“Autonomy公司在中国的推广中,我们遇到了在西方文字中不存在的语言障碍。我们选择了最优秀的分词技术,收到了很好的效果。海量在中文分词准确性和效率上的出色表现,使Autonomy在中国的用户获得了与欧美用户同样的使用效果。”
北京海量在线总裁王革焰表示:“我们很高兴海量的核心技术能帮助Autonomy公司解决他们遇到的中国特色问题,海量公司多年来致力于智能计算中文分词技术,更关心并支持智能计算这一领域的研究,我们拥有完全自主知识产权的核心技术产品--中文分词基础件。目前该基础件准确率已达到99.5%,主要应用于信息检索、汉字的智能输入、中外文对译、中文校对、自动摘要、自动分类等。已成功应用于搜索引擎、知识管理系统、竞争情报、出版、媒体等许多行业。