- 1、本文档共7页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于特征值提取文本分类方案精要
目 录
一、综述 2
(一)实现目标 2
(二)主要功能 2
二、总体架构 2
三、各模块建模挖掘层详解 4
(一)无监督学习模块 4
(二)有监督学习模块 5
四、输入层和输出层详解 5
(一)输入层 5
(二)输出层 5
基于特征值提取文本分类设计方案
一、综述
(一)实现目标
本模块实现了对文本文档集合的分类特征值提取。对输入的分类文档,基于词频、互信息、类别信息的综合特征,从每个分类中挖掘出对应的有效特征值。
该模块还实现了对特征值的权重计算,按照特征词的权重值,构造了分类器。新增文本可以通过文本分类器进行分类,无法分类的文本可以人工分类后重新执行特征值抽取功能,重新调整特征值,从而达到优化分类器的目的。
该模块由Java编写,可用于任何需要挖掘文本主题的项目中,也可以单独使用。
(二)主要功能
该模块的主要功能包括以下几个方面:
? 对原始语料库进行中文分词、去除停用词
? 词性过滤,只提取名词,动词
? 按类别进行特征词提取
? 特征词权重计算
? 文本分类
二、总体架构
三、挖掘层详解
1. 文本分词
中文分词采用开源的Ansj分词工具,基于中科院的 ictclas 中文分词算法,采用隐马尔科夫模型(HMM),比其他常用的开源分词工具(如mmseg4j)的分词准确率更高。Ansj是一款纯Java的、主要应用于自然语言处理的、高精度的分词工具,目标是“准确、高效、自由地进行中文分词”,可用于人名识别、地名识别、组织机构名识别、多级词性标注、关键词提取、指纹提取等领域,支持行业词典、用户自定义词典。
Ansj实现了用户自定义词典的动态添加删除,当然,也支持从文件加载词典。用户自定义词典默认路径:项目目录/library/userLibrary/userLibrary.dic。格式为:[自定义词] [词性] [词频],其中[词性]和[词频]两项可以空缺不写。本项目在Ansj原本自带的词典(367425条)基础上,扩展了以下词典:
1) 从数据库中抽取的电信业务词库(5767条)
2) 广深东佛城市信息精选词库(来源:搜狗细胞词库)(62617条)
3) 搜狗标准词库(392778条)
4) 搜狗精选词库(392507条)
5) 搜狗万能词库(362333条)
本模块还提供了从数据库加载词库的功能。目前整理了以下的数据库版本的词库:
1) 公积金领域词(1332条)
2) 医保领域词(2503条)
2.词性过滤
代词、连词、介词等的表征能力比较弱,因为一篇文本中的代词、连词或介词对于区分这个文本所属哪个领域几乎没什么参考价值。为此可以将表征能力很差的词性的词过滤掉。而名词和动词的表征能力最强,它们是文本中具有代表性的关键词项,因为大量的汉语知识表明,名词和动词是一个汉语句子中的核心部分,它们的简单组合,往往就可以表达出一种中心思想,一种主题。因此,我们只保留名词和动词,将其他词性的词作为弱词性词过滤掉。
3. 基于词频、互信息、类别信息的综合特征选择
1)词频:平常我们判别一篇文章的类型时,基本方法就是大致浏览一下文
章,从文章里出现比较频繁的一些字眼即可判别出文章的类型。词频最高的前几个词,基本上都是分类能力最强的词。在中文文本自动分类中,高词频对分类贡献很大。
2)互信息:互信息表示特征与类别之间的相关程度。当特征的出现只依赖于某一个类别时,特征与该类型的互信息很大;当特征与类型相互独立时,互信为O;当特征很少在该类型文本中出现时,它们之间的互信息为负数,即负相关。度小的特征对互信息的影响大,使得低频特征具有较大的互信息。
3) 类别信息:
(1)特征项只出现在一个类中,从直观上看,这个特征项非常有价值,因为我们可以从统计规律来确定,只要某文档中出现此特征项,就可以确此文档的类别。
(2)如果特征项出现在两个或多个类当中,但在有些类中没有出现,那么此特征项也是有价值的。它说明了出现此特征项的文档可能会属于某些类,并不应该属于另一些类。
(3)如果特征项在所有类中都出现了,并且出现的频率比较均,那么这样的特征项对分类就几乎没有价值,应当过滤掉。
也就是说,特征项出现的类别数越少,权重应该越大。
其中:tk为特征词t在q类中出现的词频,MI(tk,Cj)为tk与q类的互信息,
N为训练文档集中包含的类别数,Ctk为特征项tk出现的类别个数。
4.权重计算
对于特征的权重,我们是从测试文档的角度考虑的。当一个待测文档与一个别进行比对时,我们往往需要找出待测文档中出现的最能说明它属于该类的词语。此时我们需要考虑2个因素,一方面是词在c类中的代表性,另一方面是词在待文章中的代表性。考虑到以上两个因素,我们选择词的作为衡量词在c类中代表性的标准,选择词在待测文章中出现的次数.
权重 = 特征评估值
文档评论(0)