第八章 数据开采课件.ppt

  1. 1、本文档共37页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

一、知识发现与数据挖掘

二、决策树方法(分类方法)

三、聚类方法

四、关联分析方法;(1)80年在美国召开了第一届国际机器学习研讨会;

(2)89年8月于美国底特律市召开的第一届KDD国

际学术会议;

(3)95年在加拿大召开了第一届知识发现和数据挖掘国际学术会议;

(4)我国于87年召开了第一届全国机器学习研讨会。;知识发现(KDD)被认为是从数据中发现有用知识的整个过程。数据挖掘(DM)被认为是KDD过程中的一个特定步骤,它用专门算法从数据中抽取模式(patterns)。

KDD过程定义(Fayyad,Piatetsky-Shapiror,andSmyth1996):

从大量数据中提取出可信的、新颖的、有用的并能被人理解的模式的高级处理过程。

“模式”可以看成是知识的雏形,经过验证、完善后形成知识。;;若两个或多个数据项的取值之间重复出现且概率很高时,它就存在某种关联,可以建立起这些数据项的关联规则。

一个相关规则的形式为:

A1∧A2…∧Ai→B1∧B2…∧Bj。

如果B1,B2,Bj出现,那么A1,A2,Ai一定出现,这表明A1,A2,Ai与B1,B2,Bj有某种关联;数据库中的数据可以划分为一系列有意义的子集,即类。

在同一类别中,个体之间的距离较小,而不同类别上的个体之间的距离偏大。

;对数据库中一类对象的内涵进行描述,以概括这个类的有关特征。概念描述是对数据库的整体信息有全面概括,从数据库中归纳抽象的信息。

类的内涵描述有两种:

(1)特征描述:对类中对象的共同特点进行描述

(2)辨别性描述:对两个或多个类之间的区别描述

产生辨别性描述的方法有:

(1)决策树方法:ID3,IBLE等

(2)神经网络方法

(3)遗传算法;数据库中的数据存在很多异常情况,从数据分析中发现这些异常情况也是很重要的,以引起人们对它更多的注意。

偏差检测的数据模式有极值点、断点、拐点、零点和边界等不同的偏差对象。;第八章数据挖掘;第八章数据挖掘;第八章数据挖掘;条件熵:H(U/V)=-∑P(vj)∑P(ui/vj)logP(ui/vj);第八章数据挖掘;第八章数据挖掘;;;第八章数据挖掘;第八章数据挖掘;第八章数据挖掘;第八章数据挖掘;第八章数据挖掘;??八章数据挖掘;第八章数据挖掘;第八章数据挖掘;第八章数据挖掘;第八章数据挖掘;第八章数据挖掘;第八章数据挖掘;第八章数据挖掘;第八章数据挖掘;第八章数据挖掘;第八章数据挖掘;第八章数据挖掘;第八章数据挖掘;第八章数据挖掘;第八章数据挖掘;谢谢聆听!

文档评论(0)

mwq365 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档