- 1、本文档共17页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于20newsgroups的文本分析重点讲义
基于20NewsGroups考察不同算法的文本分类效果
杨川 1400010708
研究意义
随着互联网技术和数据驻村技术日新月异的发展,文本数据资源爆炸式增长,如何从海量的文本数据中获取有意义的信息,是一个很重要的问题。将文本信息按照某些主题分类,是信息的检索,查找,利用的有效手段。
自动文本分类技术已被用在数据信息过滤,信息组织管理,网页分类,数字图书馆等领域。
研究背景
自动文本分类研究起始于上世纪50年代,H. P. LUhn教授提出了基于词频统计思想的文本自动分类方法。近年来文本分类研究者将越来越多的新方法引入文本分类的领域。一些研究人员着眼于对现有算法的改进,如对K-NN算法的发展:Gongde Guo 和Hui Wang 等人提出了——基于KNN 模型的分类方法。这个新方法构造数据集的KNN 模型以此代替原数据集作为分类的基础,并且实现了k 值根据不同数据集进行自动选择,减少了对k 值的依赖,提高了分类速度和精确度。文本分类问题的研究日趋成熟,统计学习方法称为主流。然而,面对海量数据,如何更加迅速高效的分类信息依旧是一大难题。
研究目标
本文针对20NewsGroups语料,使用朴素贝叶斯算法,k-nn算法,SVM算法进行文本分类器训练,通过选取不同的参数,探究它们的分类效果和差异。
研究流程
语料介绍
文本预处理
首先,去除数字、连字符、标点符号、特殊 字符,所有大写字母转换成小写,因为这些词会因无法解析导致错误的结果;其次去处停用词,如原始数据中有许多诸如able,about,above之类的介词和副词,这些词在文章中的比例较大,但没有实际意义,需要将其除去,从而得到处理过的所有文档中的词,形成单词表。接着还原词根,这是针对英文文本进行的处理,避免同一个单词因不同的形式而干扰分类结果。
本文将单词出现频数大于3的单词进行统计,得到的总单词量为32711。将语料的每一类抽取90%作为训练样本,剩余10%作为测试样本。
朴素贝叶斯模型
朴素贝叶斯模型
K-NN模型
相似度计算:
特征选择:TF算法,TF-IDF算法
使用TF算法得到的分类结果的准确率约66%,使用TF-IDF算法得到的分类结果的准确率高达82.8%。
K-NN模型——小数据集实验结果
SVM模型
SVM模型——TF
SVM模型——TF-IDF
总结与展望
朴素贝叶斯模型对缺失数据敏感度较低,对于数据量较大的数据表现稳定,且由于其文档的预处理比较简单,因而时间消费较小,在本文的例子中表现较好,但因其需要知道先验概率,所以如果文本数据量不定时,比如文本的实时分类该算法就不合适。
K-NN 算法和SVM算法的文档预处理时间很长,且预处理的相关因素较多,难度较大,表现一般。
K-NN算法在特征选择方面还有很大的改进空间,以何种标准去掉噪声较大的训练文本,怎样优化特征选择的算法,以何种标准给目标特征分配权重,是需要改进的方向。
SVM算法对于小样本数据分类的效果较好,但其对于数据的敏感度较大。但是需要尝试惩罚因子的取值,总体来说SVM算法是比较实用的算法,其难度在于参数的选择以及核函数的选取或定义。
通过对3个算法的分类效果的比较,它们优劣互补,如朴素贝叶斯算法在大数据集下的表现优秀,SVM算法在小数据集下的表现优秀,两者结合可能会有较好的结果。或可以用聚类算法辅助分类算法进行特征选择。
致谢及参考文献
感谢李素建老师和张平文老师在选题以及实验过程中的宝贵建议和悉心指导!
参考文献
[1] 高淑琴 Web文本分类技术研究现状评述 江苏省徐州师范大学图书馆,徐州,221116
[2] 20NewsGroups数据下载地址/databases/20newsgroups/20newsgroups.html
[3]苏峰 基于深度学习的文本分类研究 内蒙古民族大学,2014
[4] Sean Owen,Robin Anil,Ted Dunning,Ellen Friedman著,王斌,韩冀中,万吉译 Mahout实战 人民邮电出版社,2014
谢谢大家!
文档评论(0)