数据挖掘概念与技术(329KB).ppt

下载文档

9
0
约6.66千字
约 34页
2018-03-29 发布于广东
举报
版权申诉
保障服务

数据挖掘概念与技术(329KB).ppt

1、本文档共34页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第四课　决策树四、决策树方法总结　　　　　　　　　 4、SPSS16.0中决策树分类算法介绍 ? Chi-Squared Automatic Interaction Detector (CHAID)：一迅速有效率探索数据的多元树统计算法，可依据所希望的分类结果来建立其区隔及数据概况说明。 ? Exhaustive CHAID：改良自CHAID算法，可切割预测变量的每种可能来做探究。 ? Classification and Regression Tree (CART)：二元树算法，可切割数据并产生精确同质的子集合。 ? Quick Unbiased Efficient Statistical Tree (QUEST)：无偏误选择变量及迅速有效率建立二元树的算法 5、决策树的应用：市场营销、数据库营销、教学研究、信用度研究、生物医学研究及质量管理研究。第四课　决策树四、决策树方法总结　　　　　　　　　 1、决策树 1) 一个树性的结构 2) 内部节点上选用一个属性进行分割 3) 每个分叉都是分割的一个部分 4) 叶子节点表示一个分布 2、决策树生成算法分成两个步骤 1) 树的生成开始，数据都在根节点递归的进行数据分片 2) 树的修剪去掉一些可能是噪音或者异常的数据 3、决策树使用: 对未知数据进行分割按照决策树上采用的分割属性逐层往下，直到一个叶子节点第四课　决策树五、决策树相关公式Gains, Response, Lift(Index)的计算公式 Gains=(TOP10Decile成功数/总成功数)*100% Response= TOP10Decile成功率 Lift= TOP10Decile成功率/总成功率　　　　　　　　　数据挖掘概念与技术经济与工商管理学院邓克文二零零九年九月第一课　分类一、数据挖掘及知识的定义　　1、数据挖掘定义：从大量数据中提取或“挖掘”知识；　　2、数据挖掘技术：分类、预测、关联和聚类等；　　3、数据挖掘过程：数据的清理、集成、选择、变换、挖掘、模型评估、知识表示；　　4、知识定义：知识就是“压缩”－浓缩就是精华！　　　　1）Occam Razor:因不宜超出果之需！　　　　2）信息论：熵　　　　3）MDL准则：minimum description length 第一课　分类二、神经网络知识预备　　1、单层神经网络；　　　　　　2、多层神经网络。第一课　分类三、SPSS软件及Logistic回归知识预备　　1、回归方法分类多个因变量 (y1,y2,…yk) 路径分析结构方程模型分析一个因变量 y 连续型因变量 (y) --- 线性回归分析分类型因变量 (y) ---Logistic 回归分析时间序列因变量 (t) ---时间序列分析生存时间因变量 (t) ---生存风险回归分析第一课　分类三、SPSS软件及Logistic回归知识预备　　2、回归方法适用前提　　　1）大样本，样本量为自变量个数的20倍左右；　　　2）因变量或其数学变换与自变量有线性关系；　　　3）扰动项（误差项）符合正态分布；　　　4）自变量间不存在诸如多重共线性等关系；　　　5）误差项方差不变；　　　　　等等。。。。。。。。　　　第一课　分类三、SPSS软件及Logistic回归知识预备　　3、Logistic回归方法介绍　　　1）Logit变换　　　　Logit变换是Logistic回归模型的基础。现实中常要研究某一事件A发生的概率P及P值的大小与某些影响因此之间的关系，但由于P对X的变化在P＝0或P＝1的附近不是很敏感的，或说是缓慢的，比如像可靠系统，可靠度P已经是0.998了，即使再改善条件和系统结构，它的可靠度增长也只能是在小数点后面的第三位或第四位之后，于是自然希望寻找一个P的函数形式θ(P),使它在P＝0或P＝1附近变化幅度较大，且最好函数形式简单，根据数学上导数的意义，提出用　　来反映θ(p)是在P附近的变化是很适合的，同时希望P＝0或P＝1时，　　有较大的值，因此取　　＝　　　，即：　　　　　　　第一课　分类三、SPSS软件及Logistic回归知识预备　　3、Logistic回归方法介绍　　　2）Logistic回归　　　设因变量是一个二分类变量，其取值为=1和=0。影