毕业设计(论文)-基于规则的分词算法研究与设计精选.doc

毕业设计(论文)-基于规则的分词算法研究与设计精选.doc

  1. 1、本文档共40页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
毕业设计(论文)-基于规则的分词算法研究与设计精选

基于规则的分词算法研究与设计 摘要:中文作为人类沟通交流、传递信息的主要语言工具之一,那么中文信息的处理在信息领域就显得非常重要。中文分词是中文信息处理的基本也是最重要的组成部分之一,它的成功与否直接关系到中文信息处理领域能否取得重大突破。 中文分词是将中文的一段话或者一句话切分成一个一个单独的词,由于中文的词典没有明确规定词的定义,不像英文的单词之间有明确的分隔符,因此要实现中文的准确分词要比英文分词复杂得多也困难得多。目前,主要的分词算法有这么一些:正向最大匹配算法(MM)、逆向最大匹配算法(RMM)、最小切分算法、最佳匹配算法等。 本文先对一些常用的经典算法进行了分析与研究,然后根据任务要求,设计了一个简单的分词系统。系统主要分为三个部分:词典构造与载入、匹配词语、输出结果。本系统做出的改进有:减少了中文标点符号所引起的分词歧义;词典存储采用容器方式调入内存,提高分词效率。 关键字:中文分词;词典;最大匹配 Researching and Designing of Words Segmentation Algorithm based on Rules Abstract:Chinese as one of the main language tools for human communication and communicate information, so Chinese information processing in the information field is very important. The Chinese word segmentation is the basic and one of the most important part of Chinese information processing, the success directly related to Chinese information processing field can get significant breakthrough. The Chinese word segmentation is a passage into Chinese or words cut into a single word, since Chinese dictionary definition of the word did not make clear a regulation, dont like English words have clear between separator, so to achieve Chinese word segmentation of accurate than English word segmentation is much more complex and much more difficult. At present, the main parting-words arithmetic has few:maximal matching algorithm, reverse maximal matching algorithm, minimum segmentation algorithm, optimal matching algorithm and so on. This paper first to some common classical algorithms are analyzed and studied, according to the mission requirements, design a simple word segmentation system. System can be divided into three parts: dictionary structure and load, matching words, output the results. This system has made improvements: reduce caused Chinese punctuation word segmentation ambiguity; dictionary by a gelatinous memory storage containers way, improve efficiency . Keyword: Chinese word segmentation, dictionary, maximal matching algorithm 目 录 第1章 绪论 1 1.1 课题背景 1 1.2 研究目的与意义 2

文档评论(0)

gz2018gz + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档