- 1、本文档共81页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
特征选择与贝叶文本分类方法的研究
摘要
随着网络应用的飞速发展和大规模数据仓库技术的广泛应用,
人们越来越容易获得来自各个方面的大量信息。与此同时却也面对
着“数据丰富,但信息贫乏”的挑战。因此人们迫切需要可以从海
量的数据信息中发现有用的规律和有价值的知识的方法和工具。数
据挖掘和知识发现技术的产生正是顺应了这个需求,并正以强大的
生命力蓬勃发展,成为数据库研究的一个新领域。文本分类作为处
理和组织大量文本数据的关键技术,是数据挖掘研究的一个重点和
热点。文本分类技术可以在很大程度上解决信息混乱问题,从而协
助人们高效管理和有效利用大量文本信息。为了得到更好的文本分
类性能,本文对文本分类中的关键技术进行了分析总结,这些包括:
文本表示模型、文本预处理、特征选择和分类方法等。其中特别对
特征选择和贝叶斯文本分类算法作了深入的研究。在这些研究的基
础上本文将改进了的特征选择方法与改进了的贝叶斯文本分类方法
有效结合起来,实现了一个文本分类系统。最后我们做了两组实验
来评定系统的性能。论文的主要研究内容概括如下:
[1] 对文本分类过程中的关键技术进行了研究,包括文本表示模型、
文本预处理、特征选择、分类算法等。特别对几种常用的文本分
类方法进行了研究。
2
[2] 分析和讨论了贝叶斯分类方法的原理,特点以及性能,并根据文
本分类的需要,重点研究了朴素贝叶斯文本分类的改进算法。
[3] 由于文本数据是一种常见的高维数据,因此对其进行有效的降
维是提升贝叶斯文本分类性能的一个重要方法。特征选择是降维
的一个重要途径,因此本文着重研究和分析了几个不同的特征选
择方法。由于用于两类别分类的优势率特征选择方法有很好的分
类效果,因此我们对优势率特征选择方法进行了改进的研究工
作,使这个方法可以更好地支持多类别的分类。
[4] 将文中改进的朴素贝叶斯的文本分类方法和改进了的特征选择
方法结合起来实现了训练算法、特征选择算法和分类算法。
[5] 用java 语言实现了一个文本分类系统原型,并就这个原型进行
了文本分类实验,实验数据显示基于这个设计思路建立的文本分
类系统有着不错的性能指标。
关键词: 文本分类,贝叶斯分类,特征选择,数据挖掘
3
ABSTRACT
Along with the rapid development of the Internet
applications and Widespread use of large—scale data warehouse
technology, large numbers of information can be acquired
conveniently from many ways. At the same time, people also face
with the challenge of data-rich, But information poor .So
everyone urgently need some kind of methods or tools, which
could find useful rules and valuable knowledge from Massive
data. Data Mining and Knowledge Discovery Technology emerged
precisely in response to this demand, and is booming with great
vitality and become a new area of Database Research. As a key
technology of processing and organizing vast text data, text
classification is an important and active research field in
data mining. Text classification can solve the information
disorder problem to a great extent
文档评论(0)