- 1、本文档共34页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第四课 决策树 四、决策树方法总结 4、SPSS16.0中决策树分类算法介绍 ? Chi-Squared Automatic Interaction Detector (CHAID):一迅速有效率探索数据的多元树统计算法,可依据所希望的分类结果来建立其区隔及数据概况说明。 ? Exhaustive CHAID:改良自CHAID算法,可切割预测变量的每种可能来做探究。 ? Classification and Regression Tree (CART):二元树算法,可切割数据并产生精确同质的子集合。 ? Quick Unbiased Efficient Statistical Tree (QUEST):无偏误选择变量及迅速有效率建立二元树的算法 5、决策树的应用:市场营销、数据库营销、教学研究、信用度研究、生物医学研究及质量管理研究。 第四课 决策树 四、决策树方法总结 1、决策树 1) 一个树性的结构 2) 内部节点上选用一个属性进行分割 3) 每个分叉都是分割的一个部分 4) 叶子节点表示一个分布 2、决策树生成算法分成两个步骤 1) 树的生成 开始,数据都在根节点 递归的进行数据分片 2) 树的修剪 去掉一些可能是噪音或者异常的数据 3、决策树使用: 对未知数据进行分割 按照决策树上采用的分割属性逐层往下,直到一个叶子节点 第四课 决策树 五、决策树相关公式Gains, Response, Lift(Index)的计算公式 Gains=(TOP10Decile成功数/总成功数)*100% Response= TOP10Decile成功率 Lift= TOP10Decile成功率/总成功率 数据挖掘概念与技术经济与工商管理学院邓克文二零零九年九月 第一课 分类 一、数据挖掘及知识的定义 1、数据挖掘定义:从大量数据中提取或“挖掘”知识; 2、数据挖掘技术:分类、预测、关联和聚类等; 3、数据挖掘过程:数据的清理、集成、选择、变换、挖掘、模型评估、知识表示; 4、知识定义:知识就是“压缩”-浓缩就是精华! 1)Occam Razor:因不宜超出果之需! 2)信息论:熵 3)MDL准则:minimum description length 第一课 分类 二、神经网络知识预备 1、单层神经网络; 2、多层神经网络。 第一课 分类 三、SPSS软件及Logistic回归知识预备 1、回归方法分类 多个因变量 (y1,y2,…yk) 路径分析 结构方程模型分析 一个因变量 y 连续型因变量 (y) --- 线性回归分析 分类型因变量 (y) ---Logistic 回归分析 时间序列因变量 (t) ---时间序列分析 生存时间因变量 (t) ---生存风险回归分析 第一课 分类 三、SPSS软件及Logistic回归知识预备 2、回归方法适用前提 1)大样本,样本量为自变量个数的20倍左右; 2)因变量或其数学变换与自变量有线性关系; 3)扰动项(误差项)符合正态分布; 4)自变量间不存在诸如多重共线性等关系; 5)误差项方差不变; 等等。。。。。。。。 第一课 分类 三、SPSS软件及Logistic回归知识预备 3、Logistic回归方法介绍 1)Logit变换 Logit变换是Logistic回归模型的基础。现实中常要研究某一事件A发生的概率P及P值的大小与某些影响因此之间的关系,但由于P对X的变化在P=0或P=1的附近不是很敏感的,或说是缓慢的,比如像可靠系统,可靠度P已经是0.998了,即使再改善条件和系统结构,它的可靠度增长也只能是在小数点后面的第三位或第四位之后,于是自然希望寻找一个P的函数形式θ(P),使它在P=0或P=1附近变化幅度较大,且最好函数形式简单,根据数学上导数的意义,提出用 来反映θ(p)是在P附近的变化是很适合的,同时希望P=0或P=1时, 有较大的值,因此取 = ,即: 第一课 分类 三、SPSS软件及Logistic回归知识预备 3、Logistic回归方法介绍 2)Logistic回归 设因变量是一个二分类变量,其取值为=1和=0。 影
文档评论(0)