基于关键词组合向量模型文本自动分类研究.docVIP

下载本文档

1
0
约3.33千字
约 7页
2018-06-01 发布于福建
举报
版权申诉

基于关键词组合向量模型文本自动分类研究.doc

1、本文档共7页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于关键词组合向量模型文本自动分类研究

基于关键词组合向量模型文本自动分类研究　　[摘要] 本文描述了一种新的基于关键词组合模式的文本向量空间表示模型，相对于只使用文本中词语的频率的文本向量空间模型，这种新的模型在可以计算的前提下，使用了词语之间的相对位置信息，从而可以解决部分词语向量空间模型表示的不足。本文讨论了使用这种模型的自动文本分类系统，包括分类系统的结构、特征提取、文本相似度计算公式，并给出了评估方法。　　[关键词] 关键词组合向量空间自动分类分类算法　　　　近年来，以文本格式存储的海量信息出现在Internet、数字化图书馆及公司的Intranet上，如何从这些浩瀚的文本中发现有价值的信息是信息处理领域的重要目标，而文本自动分类系统能够在给定的分类模型下，根据文本的内容自动对文本分门别类，从而更好地帮助人们组织及挖掘文本信息，因此得到日益广泛的关注，成为信息处理领域最???要的研究方向之一。　　一、自动分类的种类和作用　　自动分类就是用计算机系统代替人工对文献等对象进行分类，一般包括自动聚类和自动归类。自动聚类和自动归类的主要区别就是自动聚类不需要事先定义好分类体系，而自动归类则需要确定好类别体系，并且要为每个类别提供一批预先分好的对象作为训练文集，分类系统先通过训练文集学习分类知识，在实际分类时，再根据学习到的分类知识为需要分类的文献确定一个或者多个类别。本文中所指的自动分类是指对网页的自动分类，包括网页的自动归类和自动聚类。　　目前有哪些信誉好的足球投注网站引擎提供两种信息查询方式:分类浏览和关键词检索。分类浏览一般是基于网站分类目录。关键词检索的对象不是网站，而是符合条件的网页。关键词检索信息量大、更新及时、不需要人工干预。　　二、问题描述　　1.系统任务　　简单地说，文本分类系统的任务是：在给定的分类体系下，根据文本的内容自动地确定文本关联的类别。从数学角度来看，文本分类是一个映射的过程，它将未标明类别的文本映射到已有的类别中，该映射可以是一一映射，也可以是一对多的映射，因为通常一篇文本可以同多个类别相关联。用数学公式表示如下：　　　　文本分类的映射规则是系统根据已经掌握的每类若干样本的数据信息,总结出分类的规律性而建立的判别公式和判别规则。然后在遇到新文本时,根据总结出的判别规则,确定文本相关的类别。　　2.评估方法　　我们使用评估文本分类系统的两个指标：准确率和查全率。准确率是所有判断的文本中与人工分类结果吻合的文本所占的比率。其数学公式表示如下：;查全率是人工分类结果应有的文本中分类系统吻合的文本所占的比率，其数学公式表示如下：;准确率和查全率反映了分类质量的两个不同方面，两者必须综合考虑，不可偏废。　　3.词语向量空间模型的文本表示　　目前，在信息处理方向上,文本的表示主要采用向量空间模型 (VSM)。向量空间模型的基本思想是以向量来表示文本:（W1,W2,W3……Wn），其中Wi为第i个特征项的权重，那么选取什么作为特征项呢,一般可以选择字、词或词组，根据实验结果，普遍认为选取词作为特征项要优于字和词组,因此,要将文本表示为向量空间中的一个向量,就首先要将文本分词,由这些词作为向量的维数来表示文本。词频分为绝对词频和相对词频，绝对词频,即使用词在文本中出现的频率表示文本,相对词频为归一化的词频,其计算方法主要运用TF～IDF公式,目前存在多种TF～IDF公式,一种比较普遍的TF～IDF公式为:;其中，为词t在文本中的权重，而为词t在文本中的词频，N为训练文本的总数，nt为训练文本集中出现t的文本数，分母为归一化因子。　　4.词语向量空间模型的训练方法和分类算法　　训练方法和分类算法是分类系统的核心部分，目前存在多种基于向量空间模型的训练算法和分类算法，例如，支持向量机算法、神经网络方法，最大平均熵方法，最近 K 邻居方法和贝叶斯方法等等。一般相似度定义公式为:;其中，di，dj为不同的文本，M为特征向量的维数，Wk为向量的第K维。　　三、关键词组合向量空间的文本表示模型　　关键词组合是大多数有哪些信誉好的足球投注网站引擎使用的查询语言。我们这里定义的关键词组合(Keyword expression)为：　　Keyword expression= keyword [and keyword] * 　　例如keyword expression =“大海”and “海鸥”表示如果文本中同时出现“大海”和“海鸥”，则这个文档满足关键词表达式。　　定义P为可能关注的关键词集合为P，|P|为关键词的个数。对于一般的分类系统|P|一般为10万左右。Pi为其中的一个关键词。关键词可以是一个有稳定的词语也可以是一个短语。　　定义E表示可能关注的关键词集合。 |P|为关键词组合的个数. Ei是其中的