一种改进最大匹配分词算法研究.docVIP

下载本文档

1
0
约2.73千字
约 6页
2018-05-23 发布于福建
举报
版权申诉

一种改进最大匹配分词算法研究.doc

1、本文档共6页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种改进最大匹配分词算法研究

一种改进的最大匹配分词算法研究　　摘要:通过对最大匹配分词算法做出改进,解决了最大匹配分词算法所不能解决的一些问题,并得出较准确的粗分结果。? 　　关键词:MMSEG;最大匹配;分词 ? 　　中图分类号:TP 　　文献标识码:A 　　文章编号:1672-3198(2010)09-0297-02?? 　　　　1 引言? 　　汉语的中文信息处理就是要用计算机对汉语的音,形,义进行处理。同时词是最小的能够独立活动的有意义的语言成分。然而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文自动分词是中文信息处理的基础与关键。目前,中文自动分词方法主要分为三类:第一类主要是基于字典,词库的字符串匹配方法,这类方法简单实用,比较容易实现,然而精度不高;第二类主要是利用词的频度统计信息进行分词的方法,这类方法能够识别生词,但对常用词的识别精度不高;第三类主要是基于句法语法分析,并结合语义分析,根据上下文信息来分词,这类方法原理比较复杂,难于实现。单靠某一类分词方法很难实现满意实用的分词系统,而中文词语分析一般都需要包括3个过程:预处理过程的词语粗切分,切分排歧与未登录词识别和词性标注。目前中文词语分析采取的主要步骤是:先采取最大匹配,最短路径,概率统计或全切分等方法,得到一个相对好的粗分结果,然后进行排歧,未登录词识别,最后标注词性。在实际的系统中,这三个过程可能相互交叉,反复融合,也可能不存在明显的先后次序。? 　　衡量自动分词系统的两个主要指标是:切分精度和切分速度。对于处理海量数据的中文分词系统来说,切分速度无疑是最重要的指标。因此,在处理海量数据的中文分词系统中为了提高切分速度,通常使用基于基本分词词典(常用词词典)的串匹配分词方法作为粗分手段,并在后续的处理过程中利用词的频度统计信息或汉语规则提高切分精度。预处理过程的粗分结果是后续过程的处理对象,因此在要求粗分效率的前提下必须尽量提高粗分结果的准确性,否则在后续过程中很难对错误的粗分结果进行补救,导致切分精度的下降。? 　　本文提出一种旨在保证分词效率的同时兼顾分词准确率的词语粗分模型,基于最大匹配分词算法的中文词语粗分模型。该模型使用???分速度快的最大匹配分词算法对中文进行粗分,同时对最大匹配分词算法进行改进以尽量提高粗分结果的准确性。? 　　2 最大匹配中文分词的基本概念? 　　这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下:? 　　(1)正向最大匹配法(由左到右的方向); ? 　　(2)逆向最大匹配法(由右到左的方向); ? 　　(3)最少切分(使每一句中切出的词数最小)。? 　　还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245.但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。? 　　3 改进的最大匹配分词算法(MMSEG)? 　　首先来理解一下chunk,它是MMSeg分词算法中一个关键的概念。Chunk中包含依据上下文分出的一组词和相关的属性,包括长度(Length)、平均长度(Average Length)、标准差的平方(Variance)和自由语素度(Degree Of Morphemic Freedom)。下面列出了这4个属性: ? 　　属性含义　　长度(Length)chuck中各个词的长度之和　　平均长度(Average Length)长度(Length)/词数　　标准差的平方(Variance)同数学中的定义　　自由语素度(Degree Of Morphemic Freedom)各单字词词频的对数之和　　Chunk中的4个属性只有在需要该属性的值时才进行计算,而且只计算一次。? 　　其次来理解一下规则(Rule),它是MMSeg分词算法中的又一个关键的概念。实际上我们可以将规则理解为一个过滤器(Filter),过滤掉不符合要求的chunk。MMSeg分词算法中