北大软微-莫同-数据挖掘及应用-结课大作业-1M超大数据集文本分类数据集挖掘.pdfVIP

北大软微-莫同-数据挖掘及应用-结课大作业-1M超大数据集文本分类数据集挖掘.pdf

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

1M超大数据集文本分类数据集挖掘项目

小组成员:(5人)

一、分析目标

大数据时代到来,各领域所积累的数据爆炸式增长,越来越多的数据价值等

待着我们去挖掘,这使得数据挖掘这门技术近几年来变得炙手可热。由于传统的

数据分析方式并不能处理文本数据,文本之类的非结构化数据中的价值并没有得

到充分的挖掘。因此相较对传统结构化数据的挖掘,文本挖掘似乎更符合当下的

时代背景和现实需求。文本分类是文本挖掘研究的热点方向且极具实用价值,因

此文本分类被广泛的应用到各领域,如邮件分类、网页分类、文本索引、自动文

摘、信息检索、信息推送、数字图书馆以及学习系统等。

在文本分类中,根据文档的特征不同可以将文本按不同的方式进行分类,如

按文本标题、文本内容、情感倾向性、文本风格等方式进行分类。

1)按文本标题分类

按文本标题分类顾名思义即根据文本的标题信息进行文本分类的一种方法。

标题中蕴含了文本的主要信息,是对文本内容的高度概括,并且标题有着简洁、

语句简单等特征,使得对文本标题的分析更准确有效。

2)按文本内容分类

按文本内容进行分类,是最常见的一种分类,其关注点在于能区别不同文本

内容的关键性词语。按文本内容分类是对根据文档主题进行自动分类,在教育学、

法学等领域研究中都十分有用。例如,基于Web信息挖掘的英语阅读自动选篇

的分类研究方法,将按文本内容分类应用于教育研究中。

3)按情感倾向性分类

按情感倾向性分类是指根据文档中作者对所表达的事物所持有的观点、态度,

如正面、负面、积极、消极、中性等。在研究中也被称作情感分析、观点挖掘或

是文本意见挖掘等。按情感倾向性的分类中,情感特征的选择与抽取对分类的性

能有比较大的影响。目前的文本情感分析在网络舆情分析、政策文件分析、问卷

调查等方面应用较多。例如,结合词云、关联规则、文本倾向性分析等技术对中

国房地产网络舆情做实证分析与研究,可以给出相关的政策建议。

4)按文本风格分类

按文本风格分类主要是指在文本语言特色方面的分类,是对文本作者在词语

使用、句式使用等方面的特色进行分类。针对这种分类方式可以应用于文本作者

身份识别、文学作品流派等的研究中。例如,运用支持向量机技术对《红楼梦》

进行分类研究,能更有效地区分古典文学作品的作者。

分类是数据挖掘中的重要方法之一,在文本分类中常见的算法有朴素贝叶斯

算法、支持向量机、K近邻算法、Rocchio算法等。朴素贝叶斯算法是在文档自

动分类中应用概率模型的一种简单而有效的方法,关注的是文档属于某类别的概

率。支持向量机是通过构造一个分类超平面,使得分类问隔达到最大,最大限度

地分开两类训练样本的一种方法。K近邻算法是为待分类文本找出最为相似的K

个样本,统计这些样本所属的类别,待分类文本的类别就是包含样本最多的类别。

Rocchio算法是对一个类别里的所有样本文档各项计算平均值,得到一个称为质

心的新向量,若需要对新文档作判断时就通过计算距离比较新文档和质心的相似

程度。下面主要对朴素贝叶斯算法、支持向量机、K近邻算法、Rocchio算法等

四种算法进行比较分析。

表1常见分类算法比较表

算法优点缺点

在特征属性相关性较小时具有最不能对类概念做出非常准确的估

朴素贝叶斯优的性能,对缺失数据不太敏感,计,在属性较多或属性间相关性较

需估计的参数较少大时效率较低

使用的训练集少,可处理高维稀过于依赖分类面周围的正例和反例

支持向量积疏文本数据,对特征相关性不敏的位置,核函数的选择缺乏指导,当

感样本较多时训练速度较慢

不需要特征选取和训练,易处理样本量较大,空间复杂度高,计算开

K近邻算法类别数目多的情况,方法简单且销大于其他方法,K值的选取也直

性能稳定

文档评论(0)

bookst + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档