- 1、本文档共22页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘与知识管理22
第十章 数据挖掘与知识管理;第一节 数据挖掘技术 ;2.决策中的数据挖掘
在决策过程的智能阶段,数据挖掘起着重要的作用。在小型组织中,高层管理者对于发生了什么事情是十分清楚的,他们可以通过沟通发现问题并形成决策陈述。在大中型组织中,高层管理者不可能去关心每一件发生的事情,更不用说去了解每个细节的发展变化。在有完善的数据积累的组织中,每个细节总是以数据的形式很好地保存于数据库中,此时可根据决策者的要求开发数据仓库。但数据仓库更适合于信息管理人员的习惯,直接通过数据仓库难以发现有价值的信息。;二、数据挖掘的过程
数据挖掘的一般流程如图10-2所示,具体见第五部分的案例中。 ;三、数据挖掘的技术
常见的数据挖掘技术有:
1.聚类分析(Clustering Analysis)。聚类方法主要有统计聚类和模糊聚类,通过聚类可以进行分类、预测和发现异常信息。
2.决策树(Decision Tree)。决策树方法被成功地应用于信用卡损失和不同的国际流通货币的时序预测等各种问题中。一般可用于探索问题、数据预处理和预测中。目前常用的有ID3、CHAID和CART等几种典型的算法。
决策树算法的主要优点是直观,其缺点在于随着数据复杂性的增加,分支数会增加,对数据仓库的有哪些信誉好的足球投注网站次数会增加,管理难度会加大。;3.神经网络(Neural Network)。神经网络虽然在易用性和易理解性方面受到了限制,但其正确率很高。它通过学习发现规律,然后进行预测。神经网络可用于聚类、异常发现、特征制取和预测。
4.关联分析(Association Analysis)。关联分析方法是由Dovetail Solutions公司的Miguel Castro博士提供。它又称为MB――“货篮子分析”,可用于销售配售、商店陈列、产品目录、定价和促销等方面。 ;5.粗糙集方法(Rough Set)。在20世纪70年代,波兰学者Z. Pawlak和一些波兰的逻辑学家们一起从事关于信息系统逻辑特性的研究。粗糙集理论是Pawlak于1982年提出的分析不完整、不确定性数据的新的数学理论。
6.遗传算法(Genetic Algorithms)。遗传算法是霍兰等人于20世纪40年代提出的。以生物进化的过程为基础,加以交叉、变异和选择运算,逐步得到问题的最优解。 ;四、基于Web的数据挖掘
网??数据挖掘形式多样,根据不同的网络数据挖掘对象,人们将网络数据挖掘分为网络内容挖掘(Web Content Mining)、网络结构挖掘(Web Structure Mining)以及网络使用挖掘(Web Usage Mining)。;五、案例 犯罪程度预测
表10-2 是关于违法犯罪涉嫌人员数据仓库中的信息,根据属性建立其决策树。表10-2 违法犯罪涉嫌人员数据仓库中的信息;对上表中的属性值进行编号,得到表10-3。
表10-3 对数据仓库中的属性进行编号;表10-3中,犯罪程度较轻有7个记录(s1=7),严重有10个记录(s2=10),此时
I=-(7/17×log2 7/17+10/17×log2 10/17)=0.977
对有无固定职业来说,s 1=10,s2=7,s11=3表示在无固定职业的记录中犯罪程度较轻的人数,s21=7则是在无固定职业的记录中犯罪程度严重的记录数,s12=4是在有固定职业的记录中犯罪程度较轻的记录数,s22=3是在有固定职业的记录中犯罪程度严重的记录数。
I1=-(3/10×log2 3/10+7/10×log2 7/10)=0.881
I2=-(3/7×log2 3/7+4/7×log2 3/7)=0.985
E(有无固定职业)=10/17×0.881+7/17×0.985=0.924
Gain(有无固定职业)=I-E(有无固定职业)=0.977-0.924=0.053;对于家庭经济状况而言,
s1=12,s11=3,s21=9,I1=-(3/12×log2 3/12+9/12×log2 9/12)=0.811
s2=3,s12=2,s22=1,I2=-(2/3×log2 2/3+1/3×log2 1/3)=0.918
s3=2,s13=2,s23=0,I3=-(2/2×log2 2/2)=0
E(家庭经济状况)=12/17×0.811+3/17×0.918+2/17×0=0.734
Gain(家庭经济状况)=I-E(家庭经济状况)=0.977-0.734=0.243
对于年龄而言,
s1=4,s11=3,s21=1,I1=-(3/4×log2 3/4+1/4×log2 1/4)=0.918
s2=4,s12=2,s22=2,I2=-(2/4×log2 2/4+2/4×log2 2/4)=1
s3=6,s31=2,s32=4,I3=-(2/6×log2 2/6+4
您可能关注的文档
- 教育心理学(研)19.ppt
- 教育心理学基础94.ppt
- 教育政务信息的特点与编写18.ppt
- 教育技术水平中级测试41.ppt
- 教育测验与评量26.ppt
- 教育研究与教师专业化发展16.ppt
- 教育科研典型案例选讲68.ppt
- 教育科研的理论与操作77.ppt
- 教育程度与被召入伍88.ppt
- 教育统筹局课程发展处教师培训研讨会之「人文素养的培育」58.ppt
- 护理学相关知识复习测试卷共三套.doc
- 护理学相关知识复习试题含答案(3套).doc
- 2025届高考语文复习:补写句子 课件.pptx
- 气压带和风带对气候的影响(第1课时)(教学设计).docx
- 气压带和风带对气候影响教学设计2024-2025学年高中地理人教版(2019)选择性必修1.docx
- 《故都的秋》课件 2024-2025学年统编版高中语文必修上册.pptx
- 《屈原列传》课件 2024-2025学年统编版高中语文选择性必修中册.pptx
- 《巫溪家乡文化》课件-2024-2025学年高一语文同步备课课件(统编版必修上册).pptx
- 《苏武传》课件 2023-2024学年统编版高中语文选择性必修中册.pptx
- 郑州中控ZKTime8.3 WEB考勤软件培训文档.pptx
文档评论(0)