中文分词算法及改进研究.docx

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

?

?

中文分词算法及改进研究

?

?

申琳

摘要:该文主要对中文分词算法过程中的歧义字段的发现和消解进行研究。首先,通过双向最大匹配检索算法和逐词扫描最大匹配法等方法实现中文文本的分词处理,并针对其中所存在的歧义字段,通过计算其互信息和[t-]信息来实现中文分词歧义的消除。该文所研究的中文分词算法,不仅可以在多个中文分词方案中选择更优的分词方案,消解中文分词歧义;同时,还可以在已有分词方案的基础上,发现更加符合实际情况的分词方案,以提高中文分词的准确性和适用性。

关键词:中文分词;歧义发现;歧义消解;互信息;[t-]信息

:TP18:A:1009-3044(2017)31-0199-02

1概述

信息技术的不断发展,提高了信息的搜集和传输效率;而信息技术的广泛应用,直接导致了信息的爆炸式增长。海量信息的增长,促使人们需要更加自动化的方法来对海量信息进行处理的新需求。信息的了解是海量信息自动化处理的基础,对于中文信息而言,如何通过中文分词进行中文文本信息的切分,理解中文文本信息的具体内容,就是海量中文文本信息就是自动化处理的基础。

2中文分词歧义消解研究

2.1中文分詞歧义消解概述

中文分词最大的问题就在于中文分词歧义的消除,例如在词句“”的分词中“他说的确实在理”文本的分词时,“的确”、“是在”、“确实”、“在理”等词语都是生活中常见的词组方法。因此按照不同的分词方法会产生歧义:①正向优化最大匹配方法(FMM)的分词结果为:“他/说/的确/实在/理”;②算法进和逆向优化最大匹配方法(RMM)的分词结果为“他/说/的/确实/在理”。而对于文本“老师教你马上去”而言,使用FMM和RMM算法的处理结果分别为“老师/叫/你/马上/去”(FMM)和“老师/叫/你/马/上去”(RMM)。除FMM算法和RMM算法以外,在进行具体的中文文本分词时,都有可能因为中文文本的特殊性,导致分词结果不正确,即中文分词的歧义。

2.2中文分词歧义消解难点

歧义的处理是进行中文文本自动分词,进而理解中文文本信息时所遇到的主要困难之一,而由于如下的各种原因,导致中文分词歧义的处理存在诸多难点。

(1)歧义字段类型多种多样

歧义字段的类型丰富,而歧义消解策略也多种多样,例如通过增加语义、语用知识等外部条件来消解歧义,例如“他说的确实在理”等文本的分词,就可以通过外部知识条件来消解分词时存在的歧义;或者依靠上下文语义信息来消解歧义,例如“乒乓球拍卖完了”文本,可以分为“乒乓球拍/卖完/了”(FMM)和“乒乓球/拍卖/完了”(RMM),就可以通过上下文来消解歧义;甚至在生活中还存在,借助上下文内容,人为也无法消解的歧义。

(2)未登录词的分词歧义

由于信息的爆发式增长,中文词语本身也在不断发展,例如网络上每年就有大量网络流行语出现,这些词库中为存储的未登录词的存在,也为中文分词歧义的处理带来了很大的困难。

由于中文分词歧义的类型多样,而且中文词语本身也在不断变化发展过程中,为此想要准确、完整的解决所有中文分词歧义难以实现。而且让计算机完全理解文本的信息,通过上下文的语义来消除部分中文分词歧义,也会导致中文分词效率急剧下降。为此,在本文的研究中主要对可以借助语用知识消解的中文分词歧义进行研究。

3中文分词歧义发现算法分析

当前,中文分词歧义发现算法的研究成果较多。

(1)双向最大匹配检索算法

通过采用FMM算法和RMM算法对中文文本分词结果的对比,来发现中文分词过程中所存在的歧义。例如在““他说的确实在理””的分词过程中,发现“的确实在理”为歧义字段。

(2)逐词扫描最大匹配法

通过FMM和逐词扫描相结合以发现中文分词中的歧义字段,其原理为从文本起点取不超过最大长度的汉字符进行匹配,若在字典库中有该匹配字段,则且反一条分词,并通过与最近的分词进行比较,对存在的歧义字段进行标记;若在字典库中没有找到该匹配字段,则去掉匹配字段的最后一个汉字,重新进行匹配,直到匹配字段的长度为零为止,并文本中的下一个字进行同样处理,直到文本中的汉字全部处理完毕为止。

(3)正向最大匹配结合回退一字法

FMM和逐词扫描相结合以发现中文分词中歧义字段的新算法,其原理与逐词扫描最大匹配法类似,若匹配字段在词典库中匹配成果,则将匹配字段回退一字,进行重新匹配,如果回退一字的匹配字段在词典库中依然匹配成果,则认为中文文本中存在歧义字段。

与中文分词歧义消解的研究类似,由于中文分词歧义类型众多,以及中文词语的不断发展,使得中文分词歧义发现算法同样存在诸多难点。在本文中使用算法原理简单的FMM和RMM结合的中文分词歧义算法进行研究。

4中文分词歧义消解算法设计

4.1算法原理

通过构建语料库来计算不同中文词语的次频度,然后通过计算词语的互信息和[t-]信息来消解中

文档评论(0)

150****5008 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档