网站大量收购闲置独家精品文档,联系QQ:2885784924

数据管理决策树建模.ppt

  1. 1、本文档共154页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

*前提是首先要小于α*这里的代价就是“错误代价”,代价越高,则越不可取,而代价低的,即错误率低的,则是可取的。这与分类算法的最基本思路是一致的。*G:这里的子树是剪枝后剩下的有序子树序列。4.4案例分析-2第144页,共154页,星期六,2024年,5月4.4案例分析-2第145页,共154页,星期六,2024年,5月4.4案例:GeneralCHAIDModels-2第146页,共154页,星期六,2024年,5月CHAID-对指定方法指定参数-2第147页,共154页,星期六,2024年,5月4.4案例:GeneralCHAIDModels-2第148页,共154页,星期六,2024年,5月4.4案例:GeneralCHAIDModels-2第149页,共154页,星期六,2024年,5月4.4案例:GeneralCHAIDModels-2第150页,共154页,星期六,2024年,5月4.4案例:ExhaustiveCHAIDModels-2第151页,共154页,星期六,2024年,5月AdvancedRegressionTrees(CRT)-2第152页,共154页,星期六,2024年,5月AdvancedRegressionCHAID-2第153页,共154页,星期六,2024年,5月4.2.4属性选择-CART算法-2 满足上述两个条件的S(A)的子集一共有2|S(A)|-1-1个,为了计算subsets(A),我们用ai表示S(A)的第i个元素,用f(i)表示S(A)的前i个元素集合的满足条件(1)和(2)的子集组成的集合,那么f(i)满足以下递推公式: f(i)=f(i-1)∪[ai*f(i-1)]∪{ai}第154页,共154页,星期六,2024年,5月*Holdout方法:即记录集中的一部分(通常是2/3)作为训练集,保留剩余的部分用作测试集*自己证明自己是不可靠的。*GTP:由训练数据可知,结果属性的分类是已知的。分类规则就是要找到其它属性与结果属性(分类属性)间的关系,进而对于一般数据,由已知的或者容易测量的属性预测对象的结果属性归类。*数据库中的表就有这样的典型特征,所以最适合用来分析,不是复杂的树状结构或文本。*磨刀不误砍材功,否则不如不磨。就象开车一样,稳定90km,比串来串去慢不了多少。*本形式算法应该是针对统计度量方法的,而不是针对模型的,针对模型的可能有别的算法。S训练数据集属性选择的统计度量—分枝指标*添加头发颜色作为新的决策属性。*目的:根据度量如何对训练集分裂,以生成树。这是一个生成优化树的过程。*这里的Ci即为目标属性或目标类对熵这个概念的描述,物理学中的概念,香农初始信息论的建立。*信息量大意味着不确定性高,在一个给定的节点,该节点没有分裂前的集合的熵是确定的,而选择不同的属性对其进行分裂之后的熵却不同;在这种情况下,分裂之后的熵值最小和增益最大是等价的。*信息量大意味着不确定性高,*分枝之后的子集均去掉age属性。middle_aged分枝已经生成了叶节点,因为它们都属于同一类,可以说:对于中年人,不管何种情况都会购买电脑。而另二个分枝仍未得到目标分类,因此还需分类。*由图见,在各分支,又会计算该点的信息增益,即用该子集计算出熵,再看此子集在剩余的属性分裂下的熵值减少暨增益,从而选取最佳分枝属性。各分枝找到的最佳分枝属性可能是不同的。另,在一条路径上,已经用过的属性,不再使用。*JiaweiHanP194:(ID3算法的)信息增益度量偏向具有许多输出的测试。换句话说,它倾向于选择具有大量值的属性。*核心思想与ID3相同,以下只讨论不同的东西*二步计算:1)先计算各属性的信息增益,保留大于平均信息增益的属性;2)对上步选出的属性再计算增益比例,取得最大值的选作最终的分类属性。*记住CART生成的是二叉树实际上是在为二元划分作准备,即最终会从标准问题集中选出一个最优的划分问题作为划分标准,实现分类。*标准问题集的含义:最终选择其中的一个问题作为二叉树的分枝依据,选择哪个问题取决于其gini指标的计算比较,应该是选择其中gini指标最大的那个问题。*s为分裂子集。其实就是在S(A)全组合中去掉三个:空集,全集,正好把S(A)二分的二个子集(即互补子集)中的一个。前二者对节点的分枝没有意义,第三个说明互补子集的划分是等价的。实际上可以把所有的子集都找出来,再把这三类删掉,即得满足要求的su

文档评论(0)

xiaolan118 + 关注
实名认证
内容提供者

你好,我好,大家好!

版权声明书
用户编号:7140162041000002

1亿VIP精品文档

相关文档