标记为该类别没有特征能够进一步用于划分样本集该节点成为叶节点.ppt

标记为该类别没有特征能够进一步用于划分样本集该节点成为叶节点.ppt

  1. 1、本文档共65页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
标记为该类别没有特征能够进一步用于划分样本集该节点成为叶节点

误差平方和准则 误差平方和准则是最简单也使用最广的聚类准则函数 其中 是第i个聚类 中样本的均值 当数据点能被划分成很好的相互区分的几个聚类,并且聚类内部又很稠密时,适用误差平方和准则 误差平方和准则 采用误差平方和准则可能存在的问题 当不同聚类所包含的样本个数相差较大时,将一个大的聚类分割开来反而可能得到更小的误差平方和 最小方差准则 由于误差平方和准则度量的是样本点到聚类均值的方差,所以它是最小方差准则的一种 与误差平方和准则等价的形式 其中, 为第i个聚类中的样本个数 最小方差准则的一般形式 为某种相似性函数 散布准则 均值向量 第i个聚类的均值向量 总的均值向量 散布准则 散布矩阵 第i个聚类的散布矩阵 总的散布矩阵 聚类内散布矩阵 散布准则 散布矩阵 聚类间散布矩阵 聚类内散布矩阵和聚类间散布矩阵的关系 散布准则 为了得到更好的聚类质量,我们希望得到较小的聚类内散布和较大的聚类间散布 需要某种标量度量矩阵的“大小”,如矩阵的迹(trace,即矩阵对角线上元素之和) 由于 ,而 与如何划分聚类无关,所以,最小化 就同时最大化聚类间散布矩阵的迹 标量度量也可选用矩阵的行列式 迭代最优化 对一个有限样本集来说,可能的划分的个数是有限的,理论上可以用穷举法找到最优解。然而,穷举法因计算量过大而往往无法实现 迭代最优化方法经常用于寻求最优划分 首先开始于一些合理的初始划分 然后将某些样本从一个聚类移动到另一个聚类——如果这样做能够改善准则函数的话 重复迭代直到没有显著改善时停止 这种迭代方法可以保证收敛到局部最优,但不能保证找到全局最优 基于划分的聚类方法 给定一个数据集,基于划分的方法将数据集划分为k个子集,每个子集对应一个聚类 两种方案 每个聚类由其所包含的样本的均值来表示 每个聚类由靠近该聚类中心的样本(中心点)来表示 典型算法 k-均值(k-means) k-medoids k-means算法 每个聚类由其所包含的样本的均值来表示 步骤1:随机选择k个样本作为k个聚类的中心 步骤2:对剩余的每一个样本,将其划分入中心距离该样本最近的聚类 步骤3:计算每个聚类的均值作为新的中心 步骤4:如果聚类中心没有任何改变,算法停止,否则 回到步骤2 k-means算法 k-medoids算法 每个聚类由靠近该聚类中心的样本来表示 步骤1:随机选择k个样本作为k个聚类的中心 步骤2:对剩余的每一个样本,将其划分入中心距离该样本最近的聚类 步骤3:计算每个聚类的medoid(即距离均值最近的样 本) 步骤4:如果聚类的medoid没有任何改变,算法停止, 否则回到步骤2 k-medoids算法 小结 特征类型 数值数据(numerical data) 基于度量的模式分类方法 标称数据 (nominal data) 非度量方法 决策树 根节点(root) 分支(branch) 叶节点(leaf) 小结 构造决策树 分支数目 测试的选取 信息增益 信息增益率 Gini不纯度 剪枝 预剪枝 后剪枝 小结 根据训练样本是否有类别标记,学习算法分为 有监督(supervised)学习 无监督(unsupervised)学习 聚类(clustering) 聚类是指将物理的或抽象的对象自然分组,使得每组由相似的对象构成一类的过程 小结 聚类算法 迭代最优化聚类算法 基于划分的聚类方法 k-均值(k-means) k-medoids * * 中国2006年Gini系数0.47 Size指树的大小,包括节点数或者连接数 * Medoid: 中心点 测试的选取 常用不纯度度量 熵不纯度(entropy impurity) Gini不纯度 误分类不纯度 测试的选取 常用不纯度度量 测试的选取 对N节点如何选择查询? 使不纯度下降最快的那个查询! 和 分别为左、右子节点 和 分别为左、右子节点的不纯度 是N节点的模式划分到 的比例 如果采用熵不纯度,则不纯度下降差就是本次查询所能提供的信息增益(information gain) 信息增益 信息增益(information gain) :节点N上样本总个数 :其中属于 类的样本个数(i=1,2, …, m) :属性A的第j个取值(j=1,2, …, v) 该节点处的熵不纯度 属性A将S划分为v个子集 中属于 类的样本个数为 信息增益 信息增益(informatio

文档评论(0)

wujianz + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档