- 1、本文档共50页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文自动分词及名识别技术研究
中文自动分词及人名识别技术研究
摘 要
在 Internet 日益普及的今天,语言文字作为信息的载体越来越多的出现在
人们的视野中,因此自然语言理解成为了一个热门的研究领域。中文自动分词
作为自然语言理解的第一步,分词技术的优劣将直接影响到中文信息的后续处
理。它是自然语言理解的一个前沿课题,在基础研究和应用研究领域都起着举
足轻重的作用。
中文人名是未登录词的最主要组成部分,它的存在成为影响分词精度的主
要因素之一。中文人名识别是中文自动分词中的一项关键技术,但目前在处理
结果上还不尽如人意,还需进一步提高其识别质量。
文本将针对中文自动分词模型和中文人名识别问题进行研究,主要工作集
中在:
(1 )提出一种动态四字双向词典机制。该机制针对四字以内词出现频率高
的特点,为每一个四字以内的词添加了相应的前后缀信息,达到减少词汇平均
访问词典数的目的,提高词的查询效率。
(2 )提出了基于知网的贝叶斯中文人名识别算法。在对文章初分词的基础
上,进行朴素贝叶斯人名识别,完成对人名的粗略识别和定位,最后利用语义
相关度知识对人名修正。该方法无需规则的大量的使用,同时在人名仅一次出
现的情况下能够进行准确的识别,有效的提高了中文人名自动识别的质量。
关键词:自然语言理解;中文自动分词;四字词典;中文人名识别;朴素贝叶
斯
1
Research of Automatic Chinese segmentation and name
recognition
Abstract
With the continuous development of national information technology and the
popularization of Internet, natural language understanding becomes a hot research
field. As the first step in natural language understanding, automatic Chinese
segmentation is more sophisticated and it determines the follow-up processes.
Chinese name is the most important component of unknown words, its
existence is one of the most important factors which ar e influence the segmentation
accuracy. Therefore, Chinese name recognition is a key technology in Chinese
automatic segmentation. Currently, it is still unsatisfactory in processing on the
result, its recognition quality still need to be enhanced in the further.
This thesis wil
文档评论(0)