数据挖掘概念与技术(329KB).ppt

  1. 1、本文档共34页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第四课 决策树 四、决策树方法总结              4、SPSS16.0中决策树分类算法介绍 ? Chi-Squared Automatic Interaction Detector (CHAID):一迅速有效率探索数据的多元树统计算法,可依据所希望的分类结果来建立其区隔及数据概况说明。 ? Exhaustive CHAID:改良自CHAID算法,可切割预测变量的每种可能来做探究。 ? Classification and Regression Tree (CART):二元树算法,可切割数据并产生精确同质的子集合。 ? Quick Unbiased Efficient Statistical Tree (QUEST):无偏误选择变量及迅速有效率建立二元树的算法 5、决策树的应用:市场营销、数据库营销、教学研究、信用度研究、生物医学研究及质量管理研究。 第四课 决策树 四、决策树方法总结              1、决策树 1) 一个树性的结构 2) 内部节点上选用一个属性进行分割 3) 每个分叉都是分割的一个部分 4) 叶子节点表示一个分布 2、决策树生成算法分成两个步骤 1) 树的生成 开始,数据都在根节点 递归的进行数据分片 2) 树的修剪 去掉一些可能是噪音或者异常的数据 3、决策树使用: 对未知数据进行分割 按照决策树上采用的分割属性逐层往下,直到一个叶子节点 第四课 决策树 五、决策树相关公式Gains, Response, Lift(Index)的计算公式 Gains=(TOP10Decile成功数/总成功数)*100% Response= TOP10Decile成功率 Lift= TOP10Decile成功率/总成功率              数据挖掘概念与技术 经济与工商管理学院 邓克文 二零零九年九月 第一课 分类 一、数据挖掘及知识的定义   1、数据挖掘定义:从大量数据中提取或“挖掘”知识;   2、数据挖掘技术:分类、预测、关联和聚类等;   3、数据挖掘过程:数据的清理、集成、选择、变换、挖掘、模型评估、知识表示;   4、知识定义:知识就是“压缩”-浓缩就是精华!     1)Occam Razor:因不宜超出果之需!     2)信息论:熵     3)MDL准则:minimum description length 第一课 分类 二、神经网络知识预备   1、单层神经网络;        2、多层神经网络。 第一课 分类 三、SPSS软件及Logistic回归知识预备   1、回归方法分类 多个因变量 (y1,y2,…yk) 路径分析 结构方程模型分析 一个因变量 y 连续型因变量 (y) --- 线性回归分析 分类型因变量 (y) ---Logistic 回归分析 时间序列因变量 (t) ---时间序列分析 生存时间因变量 (t) ---生存风险回归分析 第一课 分类 三、SPSS软件及Logistic回归知识预备   2、回归方法适用前提    1)大样本,样本量为自变量个数的20倍左右;    2)因变量或其数学变换与自变量有线性关系;    3)扰动项(误差项)符合正态分布;    4)自变量间不存在诸如多重共线性等关系;    5)误差项方差不变;      等等。。。。。。。。     第一课 分类 三、SPSS软件及Logistic回归知识预备   3、Logistic回归方法介绍    1)Logit变换     Logit变换是Logistic回归模型的基础。现实中常要研究某一事件A发生的概率P及P值的大小与某些影响因此之间的关系,但由于P对X的变化在P=0或P=1的附近不是很敏感的,或说是缓慢的,比如像可靠系统,可靠度P已经是0.998了,即使再改善条件和系统结构,它的可靠度增长也只能是在小数点后面的第三位或第四位之后,于是自然希望寻找一个P的函数形式θ(P),使它在P=0或P=1附近变化幅度较大,且最好函数形式简单,根据数学上导数的意义,提出用  来反映θ(p)是在P附近的变化是很适合的,同时希望P=0或P=1时,  有较大的值,因此取  =   ,即:         第一课 分类 三、SPSS软件及Logistic回归知识预备   3、Logistic回归方法介绍    2)Logistic回归    设因变量是一个二分类变量,其取值为=1和=0。 影

文档评论(0)

精品课件 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档