二次回溯中文分词的方法.docVIP

下载本文档

10
0
约7.33千字
约 16页
2018-10-12 发布于福建
举报
版权申诉

二次回溯中文分词的方法.doc

1、本文档共16页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

二次回溯中文分词的方法

二次回溯中文分词的方法　　摘要:在最大匹配法(MM)的基础上,提出了二次回溯中文分词方法。该方法首先对待切文本进行预处理,将文本分割成长度较短的细粒度文本;利用正向匹配、回溯匹配、尾词匹配、碎片检查来有效发现歧义字段;利用长词优先兼顾二词簇的方式对交集型歧义字段进行切分,并对难点的多链长交集型歧义字段进行有效发现和切分。从随机抽取的大量语料实验结果上证明了该方法的有效性。　　关键词:中文分词; 回溯匹配; 交集型歧义; 多链长; 碎片检查　　中图分类号:TP391文献标志码:A 　　文章编号:1001-3695(2009)09-3321-03 　　doi:10.3969/j.issn.1001-3695.2009.09.034 　　　　Two times backtracking chinese word segmentation method 　　YUAN Jian??a??, ZHANG Jin-song??a??, MA Liang??b?? 　　(a.School of Optical-Electrical Computer Engineering, b.Business School, University of Shanghai for Science Technology, Shanghai 200093, China) 　　Abstract:This paper proposed two times backtracking Chinese word segmentation method based on the MM. The text was pretreatment by the method in the first, then cut the text into shorter lengths granular text. Found ambiguity field effective by forward matching method, backtracking matching, last words matching and debris inspection. Cut crossing ambiguity field by long term priorities and 2-words rules, and found the difficult and multi-linked crossing ambiguity field and cut effectively. The large number of randomly selected language materials being tested and results show that method is effective. 　　Key words:Chinese word segmentation; backtracking matching; crossing ambiguity; multi-linked; debris inspection 　　　　0 引言　　　　中文信息处理的特有问题就是如何将汉语的字串分割为合理的词语序列。中文分词是句法分析等深层中文信息处理的基础,也是机器翻译、信息检索和信息抽取等智能化信息处理的关键所在[1,2]。而中文分词的主要困难在于切分歧义消解和未登录词语的识别,这也是世界上最令计算机感到棘手的语言现象之一[3~5]。中文分词方法中机械分词法主要包括正向最大匹配法(maximum matching method ,MM)、逆向最大匹配法(reverse direction maximum matching method ,RMM)和最少切分法。目前机械式分词占主流地位的是正向最大匹配法和逆向最大匹配法,这两种方法是利用一个分词词表进行模式匹配来切分,不依赖词法、句法和语义知识,切分速度快、简洁、易于实现,在各种中文信息处理上得到了广泛的应用;缺点是对于歧义字段无法有效地识别和切分。统计结果表明,单纯使用正向最大匹配的错误率为1/169;单纯使用逆向最大匹配的错误率为1/245[6],但这种精度还不能满足智能信息处理以及人机交互的要求,对词义消歧(word sense disambiguation,WSD)是计算语言学和自然语言处理领域一个重要的研究课题,也是近些年来该领域的热点研究问题之一[7]。本文在正向最大匹配法的基础上,提出二次回溯中文分词方法(简称二次回溯法),该方法对歧义字段能有效地识别和切分,大大提高分词的召回率和查准率。　　　　1 相关概念　　　　歧义字段分为交集型歧义字段和多义型歧义字段两类,为行文