- 1、本文档共47页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
目录
第一章 绪 论 4
1.1 选题背景及意义 4
1.2 数据挖掘 4
1.3 Web挖掘 5
1.4 Web挖掘的研究现状与发展 8
1.5 本文的主要研究内容与组织结构 9
第二章 基于Web的文本分类挖掘 9
2.1 引言 9
2.2 Web文本的预处理 10
2.2.1 Web文本数据采集 10
2.2.2 文本分词 10
2.2.3 文本特征库 11
2.3 文本分类 11
2.3.1 常用的文本分类方法 12
2.3.2 文本分类方法的比较 13
2.3.3 Web文本分类的特点 14
2.4 分类性能评价方法 14
2.5 本章小结 15
第三章 朴素贝叶斯分类方法的研究 15
3.1 朴素贝叶斯分类简介 15
3.2 问题的提出 16
3.3 具体的解决方法 17
3.4实验结果 20
3.5本章小结 21
第四章 Web文本分类系统的设计与实现 22
4.1 引言 22
4.2 Web 文本分类系统的设计与实现 22
4.3 本章小结 24
第五章 结论及进一步的工作 25
5. 1 论文总结 25
5.2进一步的工作 25
致 谢 32
引言
Web文本分类挖掘作为数据挖掘的一个重要研究方向,有着潜在广阔的应用环境。因此,Web文本分类挖掘是很值得研究的内容。特别是文本的特征提取和文本分类的算法,对提高分类器的效率和实用性都有一定的帮助。本文在研究了现有的文本分类方法和文本分类系统的基础上,尝试改进朴素贝叶斯分类的假设。
绪 论
选题背景及意义
当今世界计算机的广泛发展,数据库技术的成熟,使得人类积累的数据量越来越庞大,形成了数据丰富但知识匮乏的问题。各个领域的人们都期待有一种方法能高效率地从大量的数据中发现有用信息,即知识。在这种情况下,知识发现和数据挖掘的研究成为热点,尝试解决以上问题。
数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程,这些模型和关系可以用来做出预测。数据挖掘涉及数据库、人工智能、机器学习和统计分析等多个领域的理论和技术。数据挖掘技术能从大型数据库或数据仓库中自动分析数据,进行归纳性推理,从中发掘出潜在的模式;或者产生联想,建立新的业务模型,帮助决策者调整市场策略,做出正确的决策。伴随计算能力的增长,算法及大规模数据存储技术的成熟,数据挖掘逐渐走出实验室,在生产领域发挥着积极的作用。
20世纪90年代以来,互联网迅速地发展。海量信息的管理和利用问题,向传统的数据挖掘提出了新的技术要求:如何从这些众多的信息资源中快速的发现自己所需要的知识。因此,迫切需要一种高效快速的信息资源分析工具,帮助用户快速浏览网络,并能从这些大量的信息中找出隐含的知识,减少用户的负担。
面对这种需求,Web挖掘成为近几年来新兴的研究领域。它从数据挖掘发展而来,又面临很多前所未有的问题:比如:数据量不断膨胀,处在动态变化中难以控制,数据安全难以保证,数据形式不一致难以统一处理等。
由于Web在当今社会扮演越来越重要的角色,有关Web内容挖掘、Web日志挖掘和与Web有关的数据挖掘服务,成为数据挖掘中一个重要和逐渐繁荣的领域。为了能够准确、快速、合理的利用Web上不断增长的信息,Web挖掘的研究显得更加重要了。利用Web的特性,应用和改进原有的一些数据挖掘技术和原理在Web文档中发现和分析有用信息逐渐成为知识发现研究的重要方向。
数据挖掘
数据挖掘的任务主要是从大量的、不完全的、有噪声的、模糊的、随机的数据中发现隐含的、潜在的、可能的数据模式、内在联系、规律、发展趋势等有用的信息,而这些数据经常是以结构化的静态数据库(数据仓库) 的形式存储的,还包括一些其他形式的数据集合。
数据挖掘是知识发现过程中的一个基本步骤。它融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。相近的术语有数据融合、数据分析、决策支持、KDD、知识挖掘、知识提取等。
鉴于数据、数据挖掘任务和数据挖掘方法的多样性,数据挖掘要面对许多挑战性的新课题。数据挖掘语言的设计,高效而有用的数据挖掘方法和系统的开发,交互和集成的数据挖掘环境的建立,以及应用数据挖掘技术解决大型实际应用问题,都是目前数据挖掘研究人员、系统和应用开发人员所面临的主要问题[1]。
数据挖掘研究的对象很广泛,包括数据库、文本、Web上的信息、图象、视频等。以Web信息为研究对象的数据挖掘,称为Web数据挖掘,简称Web挖掘。Web数据资源的大量、异质、分布等特点导致传统数据挖掘算法的效率、有效性受到了影响,Web数据挖掘的研究尝试弥补这种影响。
Web挖掘
Web挖掘是一项综合技术,是根据面向Internet的分布式信息资源的特点的一种模式抽取过程,它不仅能查找到分布式信息资源中已存在的信息,还能识别出大量存在于数据中的隐含的、有
文档评论(0)