- 1、本文档共7页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘技术在煤矿企业的应用
课程名称:数据挖掘与数据仓库技术 课程编号:SZ0051F06 课程类型: 非学位课 考核方式: 考试、考查
学科专业: 计算机技术 年 级: 2012级研一 姓 名:XXX 学 号: XXX
河北工程大学2012~ 2013学年第二学期研究生课程论文报告
课程论文评语:
成 绩 评阅教师签名 评阅日期 年 月 日
数据挖掘技术在煤矿企业的应用
XXX
摘 要:就数据挖掘在煤矿企业中的应用进行了综述。
:数据挖掘;数据仓库;煤矿企业1引言
数据挖掘(Data Mining),又称数据库中的知识发现( Knowledge Discovery in Database ,KDD)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘是一个新兴的多学科交叉领域,这其中主要涉及:数据库系统、数据仓库、统计学、数据可视化、信息检索和高性能计算等,其它学科还包括:人工神经网络模式识别、空间数据分析、图像数据库信号处理和归纳逻辑编程。作为数据挖掘的数据源不一定必须是数据仓库它可以是任何数据文件或格式,但必须事先进行数据预处理,处理成适合数据挖掘的数据,这个预处理过程占用数据挖掘全过程工作量的很大比重。
数据挖掘是计算机技术的核心构成,其能够对计算机数据库资源深层次的挖掘处理,从而提炼出更有价值的信息。早期煤矿企业在制定生产模式时,仅注重于现实人员的调配控制,对于计算机自动化生产模式缺乏深刻的认识自国内煤矿生产技术不断发展后,计算机及其系统开始成为煤矿行业的主要构成,数据挖掘技术也开始在煤矿行业得到多方面的运用。
2数据挖掘的过程和方法
2.1数据挖掘过程
根据 CRISP –DM)将数据挖掘项目的生命周期描述为以下的几个阶段[2]。
确定业务对象
数据挖掘的基础是理解数据和实际的业务需求,在这个基础之上提出问题,对目标有明确的定义。数据挖掘的重要一步是认清数据挖掘的目的。因此必须清晰地定义出业务问题。挖掘的最后结果是不可预测的,但对要探索的问题必须是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的。
数据准备
数据准备是保证数据挖掘得以成功的先决条件,数据准备在整个数据挖掘过程中占有大量的工作量,大约是整个数据挖掘工作量的60% 。数据准备包括数据选择、数据预处理和数据的转换。数据的选择就是有哪些信誉好的足球投注网站所有与业务对象有关的内部和外部的数据信息,获取原始的数据,从中选择出适用于数据挖掘应用的数据,建立挖掘数据库。数据预处理就要对数据进行初步的整理,清洗不完全的数据、不确定属性,为进一步的分析做准备,并确定将要进行的挖掘操作的类型。数据的转换是根据数据挖掘的目标和数据的特征,选择合适的模型。这个模型是针对挖掘算法建立的。数据挖掘成功与否的关键是建立一个真正适合挖掘算法的分析模型。
数据挖掘(模式评估)
数据挖掘就是对所得到的数据预处理后的数据进行挖掘,除了选择合适的挖掘算法外,其余工作应该能自动地完成。选择实现算法有两个考虑因素:一是不同的数据有不同的特征,因此需要用与之相关的算法来挖掘;二是根据用户或实际系统的需求选取知识的表达方式。有的用户希望用获取描述性的容易理解的知识,而有的用户知识获取预测准确度尽可能高的预测性的知识。根据选定的挖掘工具和算法,在数据预处理后的数据集上进行数据挖掘。
结果分析
对数据挖掘阶段构建出来的模型的有效性和可靠性进行解释和评估,经过评估对可能存在冗余或无关的模型,这时需要将其剔除;也有可能模型不满足用户要求,这时则需要整个发现过程回退到前一阶段,重新选取数据、采用新的数据变换方法、设定新的参数值,甚至换一种算法。另外,数据挖掘是面向最终用户的,因此发现的模型进行可视化,或者需要将结果转换为用户易懂的表示。
知识的同化
知识的同化就是将分析所得到的知识集成到业务信息系统的组织结构中去,便于决策者根据这些领域知识进行决策
2.2数据挖掘方法
为了完成挖掘任务人们从统计学、人工智能和数据库等领域借用基础研究成和工具提出了多种方法。主要的数据挖掘方法及其要点如下所述⑴关联规则
也称作亲和力分析或关联分析,是当前数据挖掘研究的热点,主要是发现大数据集中项之间的关联性或相关性的一项数据挖掘任务。关联规则所研究的数据项之间的关系在数据中没有明显、直接的联系,通过用户给定的最小支持度与最小置信度找出数据集中数据隐含的规则,关联规则是可以识别出特殊类型的数据关联模型。 国际上最早最具影响力的关联规则挖掘算法是Agrawal等人提出的Apriori算法。目前关于关联规则的研究主要是基于Aprio
文档评论(0)