- 1、本文档共78页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文分词技术;;在英文中,单词之间以空格为自然分隔符,分词自然地以空格为单位切分,而中文分词则需要依靠一定技术和方法寻找类似英文中空格作用的分隔符。
简单来说,中文分词是指将汉字序列按照一定规范、逐个切分为词序列的过程。例如 :北京市民办高中,分词结果:北京市/民办高中。
基于规则的分词是中文分词最先使用的方法,随着统计方法的发展,又提出了一些基于统计的分词模型。
基于规则的分词:正向最大匹配发、逆向最大匹配法。
基于统计的分词:隐马尔可夫模型、条件随机场模型。;;基于规则或词典的分词方法是一种较为机械的分词方法,其基本思想如下。
将待分词语句中的字符串和词典逐个匹配。
找到匹配的字符串则切分,不匹配则减去边缘的某些字符。
从头再次匹配,直至匹配完毕或者没有找到词典的字符串而结束。
基于规则分词主要方法如下。
正向最大匹配法(Maximum Match Method,MM法)。
逆向最大匹配法(Reverse Maximum Match Method,RMM法)。
双向最大匹配法(Bi-direction Matching Method,BMM法)。
;正向最大匹配法(Maximum Match Method,MM法)基本思想如下。
假设有一个待分词中文文本和一个分词词典,词典中最长的字符串长度为l。
从左至右切分待分词文本的前l个字符,然后查找是否有和词典一致的字符串。
若匹配失败,则删去该字符串的最后一个字符,仅留下前 l-1个字符,继续匹配这个字符串,以此类推。
如果匹配成功,那么被切分下来的第二个文本成为新的待分词文本,重复以上操作直至匹配完毕。如果一个字符串全部匹配失败,那么逐次删去第一个字符,重复上述操作。;假设待分词文本为“北京市民办高中”,词典为“{北京市, 北京市民, 民办高中, 天安门广场, 高中}”。由词典得到最长字符串的长度为5,具体分词步骤如下。
切分待分词文本“北京市民办高中”前5个字符,得到“北京市民办”,在词典中找不到与之匹配的字符串,匹配不成功。
删去“北京市民办”的最后一个字符得到“北京市民”,再与词典进行匹配。在词典中找到与之匹配的字符串,匹配成功。此时,将文本划分为“北京市民”“办??中”。
将分词后的第二个文本“办高中”作为待分词文本。此时词典中找不到与之匹配的字符串,匹配不成功。
删去“办高中”的最后一个字符,匹配失败,直至删去所有字符都没有匹配成功,因此删去“办高中”的第一个字符,匹配“高中”一词成功,将第二个文本划分为“办”、“高中”。
正向最大匹配法分词结果:“北京市民”、“办”、“高中”。
;正向最大匹配法中文分词具体流程展示如下所示。分词结果为:“北京市民”、“办”、“高中”。
;逆向最大匹配法(Reverse Maximum Match Method,RMM法)基本思想如下。
RMM与MM法原理相反,从右至左匹配待分词文本的后l个字符串,查找是否有和词典一致的字符串。
若匹配失败,仅留下待分词文本的后l-1个词,继续匹配这个字符串,以此类推。
如果匹配成功,则被切分下来的第一个文本序列成为新的待分词文本,重复以上操作直至匹配完毕。
如果一个词序列全部匹配失败,则逐次删去最后一个字符,重复上述操作。
;同样以待分词文本“北京市民办高中”为例说明逆向最大匹配法,具体分词步骤如下。
切分待分词文本“北京市民办高中”后5个字符,得到“市民办高中”,在词典中找不到与之匹配的字符串,匹配不成功。
删去“市民办高中”的第一个字符得到“民办高中”,再与词典进行匹配,匹配成功,将文本划分为“北京市”、“民办高中”。
将分词后的第一个文本“北京市”作为待分词文本,与词典匹配成功。
逆向最大匹配法分词结果: “北京市”“民办高中”。
;逆向最大匹配法中文分词具体流程展示如下图所示。分词结果为: “北京市”“民办高中”。
; 双向最大匹配法(Bi-direction Matching Method,BMM法)基本思想如下。
双向最大匹配法基本思想是将MM法和RMM法的结果进行对比,选取两种方法中切分次数较少的作为切分结果。
用正向最大匹配法和逆向最大匹配法对“北京市民办高中”进行分词,结果分别为“北京市民”、“办”、“高中”和“北京市”、“民办”、“高中”。
选取切分次数最少的结果为“北京市”、“民办高中”。
研究表明,利用正向最大匹配法和逆向最大匹配法匹配,中文分词大约90%的词句完全重合且正确,有9%左右的句子得到的结果不一样,但其中有一个是正确的。剩下不到1%的句子使用两种方法进行切分都是错误的。
因而,双向最大匹配法在中文分词领域中得以广泛运用。
;;基于规则的中文分词常常会遇到歧义问题和未登录词问题。
中文歧义问题主要包括两大类。
交集型切分歧义:指一个字串中间的某个字或词,不管切分到
您可能关注的文档
- 2023年老年人防诈骗知识宣传专题讲座PPT.pptx
- 2024年中考化学项目式探究题复习策略.pptx
- 2024年中考质量分析会《新课标背景下的中考化学复习策略》.pptx
- Python中文自然语言处理基础与实战(课件)第1章 绪论.pptx
- Python中文自然语言处理基础与实战(课件)第2章 语料库.pptx
- Python中文自然语言处理基础与实战(课件)第3章 正则表达式.pptx
- Python中文自然语言处理基础与实战(课件)第5章 词性标注与命名实体识别.pptx
- Python中文自然语言处理基础与实战(课件)第6章 关键词提取.pptx
- Python中文自然语言处理基础与实战(课件)第7章 文本向量化.pptx
- Python中文自然语言处理基础与实战(课件)第8章 文本分类与聚类(第二节).pptx
- 2024年证券分析与咨询服务项目投资申请报告代可行性研究报告.docx
- 2024年铬酸酐项目资金申请报告代可行性研究报告.docx
- 2024年清洁胶项目资金申请报告代可行性研究报告.docx
- 2024年肉松饼项目投资申请报告代可行性研究报告.docx
- 2024年陆上泵项目资金需求报告代可行性研究报告.docx
- 2024年未硫化复合橡胶及其制品项目资金需求报告代可行性研究报告.docx
- 2024年精密温控节能设备项目资金筹措计划书代可行性研究报告.docx
- 2024年汽车覆盖件模具项目资金筹措计划书代可行性研究报告.docx
- 宋词行书钢笔字帖.pdf
- 我的暑假生活作文三年级300字10篇.pdf
文档评论(0)