一种文本分类数据挖掘的技术.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一种文本分类数据挖掘的技术 摘要 挖掘的理论和应用研究是数据挖掘领域一个新的重要分支,本文介绍了一种文本数据挖掘方法。并给出了一个基于该方法的文本分类系统的实验结果,实验结果表明了该方法的可行性。 关键词 文本挖掘;文本分类;数据挖掘;VSM 本文首先讨论了文本挖掘技术的定义、功能、分类等问题,接着重点研究了文本分类的关键理论问题,包括分词、特征提取、特征匹配等方面,并简述了我们开发的一个简单的文本分类系统的实验情况,最后是结束语。 1文本挖掘简介 1.1 文本挖掘的定义 文本挖掘作为数据挖掘的一个新主题,引起了人们的极大兴趣,同时,它也是一个富于争议的研究方向,目前其定义尚无统一的结论,需要国内外学者开展更多的研究以便进行精确地定义。类似于我们熟知的数据挖掘定义,我们对文本挖掘作如下定义。 定义1:文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的信息或知识的过程。 直观的说,当数据挖掘的对象完全由文本这种数据类型组成时,这个过程就称为文本挖掘。文[1]已对Web挖掘与信息检索进行了比较研究,在此,我们不再详细讨论文本挖掘与信息检索的关系,我们认为随着文本挖掘技术研究的发展,将之应用到信息检索领域,必将能进一步提高信息检索的精度和效率。 1.2 文本挖掘的分类 文本挖掘从功能上可以分为总结、分类、聚类、趋势预测等。 文本总结是指从文档中抽取关键信息,用简洁的形式对文档内容进行摘要或解释。从而用户不需要浏览全文就可以了解文档或文档集合的总体内容。文本总结在有些场合非常有用,例如,有哪些信誉好的足球投注网站引擎在向用户返回查询结果时,通常需要给出文档的摘要。目前,绝大部分有哪些信誉好的足球投注网站引擎采用的方法是简单地截取文档的前几行。 文本分类是指按照预先定义的分类体系,将文档集合的每个文档归入某个类别。这样,用户不但能够方便浏览文档,而且可以通过限制有哪些信誉好的足球投注网站范围来使文档的查找更为容易。目前,Yahoo仍然是通过人工对Web 文档进行分类,这大大限制了其索引页面的数目和覆盖范围。可以说研究文本分类有着广泛的商业前景和应用价值。 文本聚类与分类的不同在于,聚类没有预先定义的主题类别,是一种典型的无教师的机器学习问题。 它的目标是将文档集合分成若干簇,且同一簇内的文档相似度尽可能大。聚类的结果可以用来指导分类。 文[2,3]介绍了利用文档进行分布分析和趋势预测的情况。 以上功能的研究在国外研究得比较的多,但都是基于英文环境的。在国内,数据挖掘研究者对中文文本的研究还刚刚开始,如何借鉴现有中文处理技术对文本进行挖掘仍有很多问题亟待解决。 2. 文本分类 我们开发了一个简单的文本分类系统(STCS),下面分别介绍其中的各项关键技术。 2.1 文本信息的预处理 在对文档进行特征提取前,需要先进行文本信息的预处理,对英文而言需进行Stemming处理,中文的情况则不同,因为中文词与词之间没有固有的间隔符,需要进行分词处理。 在中文信息处理领域,对中文自动分词研究已经得比较多了,提出了一些分词方法,如最大匹配法、逐词遍历匹配法、最小匹配法等。文[4]中采用了基于词典的正向逐词遍历匹配法,在我们设计的分类系统(STCS)中,我们在分析了最大匹配法的特点后,提出了一种改进的算法。该算法在允许一定的分词错误率的情况下,能显著提高分词效率,其速度优于传统的最大匹配法。但是我们忽略了通用词的处理,仅处理专用词典中的词条,从而较好地避免了通用分词的技术问题,此方法适合于专用领域文档的分类。 改进算法的主要思想是对词典建立索引,匹配时,将以第一个字开头的词条均读入内存,以后的回溯匹配均在内存中查找,避免了最大匹配法频繁查词典的缺陷。该算法的详细描述以及效率比较,我们将另文给出。 我们将主词典、同义词词典合二为一,仅建立了一个词典,从而加快查词速度。词典结构如下: 词条 编号 同义词 文档频数 2.2 特征表示与特征提取 特征表示是指以一定特征项(如词条或描述)来代表文档,在文本挖掘时只需对这些特征项进行处理,从而实现对非结构化的文本的处理,这是一个非结构化向结构化转化的处理步骤。特征表示的构造过程就是挖掘模型的构造过程,特征表示模型有多种,常用的有布尔逻辑型、概率型、向量空间型等。我们采用了应用较多的向量空间模型(Vector Space Model ,VSM )。 在VSM中,我们将文本文档视为由一组词条( )构成,每一词条都赋以一定的权值 ,从而每一篇文档被映射为由一组词条矢量形成的向量空间中的一个向量。文本的匹配问题便可转化为向量空间中的向量匹配问题处理。 对于词条权值 的处理,在文本学习中最常用的是TF*IDF表示法,它是一种文档的词集表示法,所有

文档评论(0)

enxyuio + 关注
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档