基于特征值提取文本分类方案精要.docx

下载文档 降价啦

7
0
约 7页
2017-03-29 发布于湖北
举报
版权申诉
保障服务

基于特征值提取文本分类方案精要.docx

1、本文档共7页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于特征值提取文本分类方案精要

目录一、综述 2 （一）实现目标 2 （二）主要功能 2 二、总体架构 2 三、各模块建模挖掘层详解 4 （一）无监督学习模块 4 （二）有监督学习模块 5 四、输入层和输出层详解 5 （一）输入层 5 （二）输出层 5 基于特征值提取文本分类设计方案一、综述（一）实现目标本模块实现了对文本文档集合的分类特征值提取。对输入的分类文档，基于词频、互信息、类别信息的综合特征，从每个分类中挖掘出对应的有效特征值。该模块还实现了对特征值的权重计算，按照特征词的权重值，构造了分类器。新增文本可以通过文本分类器进行分类，无法分类的文本可以人工分类后重新执行特征值抽取功能，重新调整特征值，从而达到优化分类器的目的。该模块由Java编写，可用于任何需要挖掘文本主题的项目中，也可以单独使用。（二）主要功能该模块的主要功能包括以下几个方面： ? 对原始语料库进行中文分词、去除停用词 ? 词性过滤，只提取名词，动词 ? 按类别进行特征词提取 ? 特征词权重计算 ? 文本分类二、总体架构三、挖掘层详解 1. 文本分词中文分词采用开源的Ansj分词工具，基于中科院的 ictclas 中文分词算法，采用隐马尔科夫模型（HMM），比其他常用的开源分词工具（如mmseg4j）的分词准确率更高。Ansj是一款纯Java的、主要应用于自然语言处理的、高精度的分词工具，目标是“准确、高效、自由地进行中文分词”，可用于人名识别、地名识别、组织机构名识别、多级词性标注、关键词提取、指纹提取等领域，支持行业词典、用户自定义词典。 Ansj实现了用户自定义词典的动态添加删除，当然，也支持从文件加载词典。用户自定义词典默认路径：项目目录/library/userLibrary/userLibrary.dic。格式为：[自定义词] [词性] [词频]，其中[词性]和[词频]两项可以空缺不写。本项目在Ansj原本自带的词典（367425条）基础上，扩展了以下词典： 1) 从数据库中抽取的电信业务词库（5767条） 2) 广深东佛城市信息精选词库（来源：搜狗细胞词库）（62617条） 3) 搜狗标准词库（392778条） 4) 搜狗精选词库（392507条） 5) 搜狗万能词库（362333条）本模块还提供了从数据库加载词库的功能。目前整理了以下的数据库版本的词库： 1) 公积金领域词(1332条) 2) 医保领域词(2503条) 2.词性过滤代词、连词、介词等的表征能力比较弱，因为一篇文本中的代词、连词或介词对于区分这个文本所属哪个领域几乎没什么参考价值。为此可以将表征能力很差的词性的词过滤掉。而名词和动词的表征能力最强，它们是文本中具有代表性的关键词项，因为大量的汉语知识表明，名词和动词是一个汉语句子中的核心部分，它们的简单组合，往往就可以表达出一种中心思想，一种主题。因此，我们只保留名词和动词，将其他词性的词作为弱词性词过滤掉。 3. 基于词频、互信息、类别信息的综合特征选择 1）词频：平常我们判别一篇文章的类型时，基本方法就是大致浏览一下文章，从文章里出现比较频繁的一些字眼即可判别出文章的类型。词频最高的前几个词，基本上都是分类能力最强的词。在中文文本自动分类中，高词频对分类贡献很大。 2）互信息：互信息表示特征与类别之间的相关程度。当特征的出现只依赖于某一个类别时，特征与该类型的互信息很大；当特征与类型相互独立时，互信为O；当特征很少在该类型文本中出现时，它们之间的互信息为负数，即负相关。度小的特征对互信息的影响大，使得低频特征具有较大的互信息。 3) 类别信息： (1)特征项只出现在一个类中，从直观上看，这个特征项非常有价值，因为我们可以从统计规律来确定，只要某文档中出现此特征项，就可以确此文档的类别。 (2)如果特征项出现在两个或多个类当中，但在有些类中没有出现，那么此特征项也是有价值的。它说明了出现此特征项的文档可能会属于某些类，并不应该属于另一些类。 (3)如果特征项在所有类中都出现了，并且出现的频率比较均，那么这样的特征项对分类就几乎没有价值，应当过滤掉。也就是说，特征项出现的类别数越少，权重应该越大。其中：tk为特征词t在q类中出现的词频，MI(tk，Cj)为tk与q类的互信息， N为训练文档集中包含的类别数，Ctk为特征项tk出现的类别个数。 4.权重计算对于特征的权重，我们是从测试文档的角度考虑的。当一个待测文档与一个别进行比对时，我们往往需要找出待测文档中出现的最能说明它属于该类的词语。此时我们需要考虑2个因素，一方面是词在c类中的代表性，另一方面是词在待文章中的代表性。考虑到以上两个因素，我们选择词的作为衡量词在c类中代表性的标准，选择词在待测文章中出现的次数．权重 = 特征评估值