第五章-数据预处理.ppt

  1. 1、本文档共87页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
5.4 数据离散化和概念分层 离散化: 通过将属性(连续取值)域值范围划分为若干区间,来帮助减少给定连续属性值的个数。用区间的标号来表示一个区间内的实际数据值。 在基于决策树的分类挖掘中,离散化处理是一个极为有效的数据预处理步骤。 连续数据离散化 基本概念: 1)离散属性: 具有有限个,或无限个但可数的值; 常用整数变量表示;如邮政编码或ID号; 二元属性是离散属性的特例。 2)连续属性: 取实数值的属性,如温度、高度值等。 离散化方法 常用的离散化方法: 1)分箱:通过将数据分布到箱中,用箱中数据的平均值或中值来替换箱中的每个值。 2)直方图: 等宽直方图中,将数据划分成相等的部分或区间,如(0,100$)、(100$,200$]、(200$,300$]…. 等深直方图:值被划分使得每一部分包括相同个数的样本。 离散化方法 常用的离散化方法: 3)聚类分析:将数据划分成簇,每个簇形成同一个概念层上的一个节点,每个簇可再分成多个子簇,形成子节点。 4)基于熵的离散化:熵是一种信息度量的方法 5)通过自然划分分段 基于熵的离散化 思想: 考虑类别信息,递归计算信息熵,产生分层的离散化。 给定一个数据元组的集合S,基于熵对S离散化的方法如下: 1)属性A中的每个取值可被认为是一个潜在的区间边界或阈值T。例如,A的取值v可以将样本S划分为分别满足Av和A≥v两个子集,这样就创建了一个二元离散化。 2)对于数据集S,根据所划分子集而获得的最大熵增益来选择阈值,信息熵增益计算如下: 基于熵的离散化 其中S1和S2分别对应于S中满足条件:AT与A≥T,的样本。对给定的集合,熵函数Ent根据集合中样本的类分布来计算。例如,给定m个不同类别,S1的熵就是: 其中pi为类i在S1中出现的概率,等于S1中类i的样本除以S1中样本的总行数。同理,计算Ent(S2)。 3)确定阈值的过程递归的用于所得到的每个划分,直到满足某个终止条件,如: 基于熵的离散化 与迄今为止提到的其他方法不同,基于熵的离散化使用了类别信息。这使得它更有可能将区间边界定义在准确位置,有助于提高分类的准确性。 此处用到的信息增益和信息熵也用于决策树归纳。 自然划分分段 思想: 将数值区域划分为相对一致的、易于阅读的、看上去更直观或自然的区间。 聚类分析产生的概念分层可能会将一个工资区间划分为:[51263.98, 60872.34] 而通常数据分析人员希望看到划分的形式为[50000,60000] 自然划分的3-4-5规则常可以将数值数据划分为相对一致和“自然”的区间。一般的,根据最重要的数字上的值区域,递归的和逐层的将给定的数据区域划分为3、4或5个等宽区间。 自然划分的3-4-5规则 规则的划分步骤: 如果一个区间最高有效位上包含3,6,7或9个不同的值,就将该区间划分为3个等宽子区间;(7?2,3,2) 如果一个区间最高有效位上包含2,4,或8个不同的值,就将该区间划分为4个等宽子区间; 如果一个区间最高有效位上包含1,5,或10个不同的值,就将该区间划分为5个等宽子区间; 将该规则递归的应用于每个子区间,产生给定数值属性的概念分层; 自然划分的3-4-5规则 规则的划分步骤: 对于数据集中出现的最大值和最小值的极端分布,为了避免上述方法出现的结果扭曲,可以在顶层分段时,选用一个大部分的概率空间。e.g. 5%-95% 例如,在资产数据集中,少数人的资产可能比其他人高几个数量级。如果按照最高资产值进行分段,可能导致高度倾斜的分层。此时,可以在顶层分段时,选用一个大部分的概率空间。e.g. 5%-95%。 示例:3-4-5规则 假定AllElectronics所有分部1999年的利润覆盖了一个很宽的区间,从-351.00$到4700$。要求利用3-4-5规则自动构造利润属性的一个概念层次树。 示例:3-4-5规则 思路: 设在上述范围取值为5%至95%的区间为:-159$至1838$。应用3-4-5规则的具体步骤如下: 1)根据以上信息,在利润数据集中最小和最大值分别为:MIN=-351$, MAX=4700$。而根据以上分析,对于分段的顶层或第一层,要考虑的最低(5%)和最高(95%)的值是:LOW=-159$, HIGH=1838$。 2)依据LOW和HIGH及其取值范围,确定最高有效位为1000$,LOW按1000$美元向下取整,得到LOW’=-1000$;HIGH按1000$向上取整,得到:HIGH’=2000$。 示例:3-4-5规则 3)由于该区间在最高有效位上跨越了3个值,即(2000-(-1000))/1000=3,根据3-4-5规则,该区间被划分成3个等宽区间:(-1000$,0], (0, 10

文档评论(0)

优美的文学 + 关注
实名认证
内容提供者

优美的文学优美的文学优美的文学优美的文学优美的文学

1亿VIP精品文档

相关文档