连续值的离散化.pdf

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
连续值的离散化

连续值的离散化 许文烈 成均馆大学 1、为什么要进行离散化? 1.1 什么是连续属性离散化 连续属性的离散化就是在特定的连续属性的值域范围内设定若干个离散化 的划分点,将属性的值域范围划分为一些离散化区间,最后用不同的符号或整数 值代表落在每个子区间中的属性值。对连续属性的离散化过程,从本质上来看, 就是利用选取的断点来对条件属性构成的空间进行划分的过程。 1.2 连续属性离散化的目的 连续值离散化的目的是为了简化数据结构。 数据通常有这样几种类型:标称型,离散型和连续型。现实生活中的数据往 往来源于复合型,例如许多数据是数值型与离散型的复合。这就需要有一个统一 的数据类型来进行数据处理。 通过将属性值域划分为区间,数据离散化技术可以用来减少给定连续属性值 的个数。离散属性比连续属性更接近于知识级的表达。对用户和专家而言,离散 属性更易理解、使用和解释。 离散化方法经常作为数据挖掘的工具,而使用离散属性所获得的结果(决策 树、归纳法则)往往更紧凑、简短和精确因此其结果也更易被检查、比较、使用 和重用。 除此之外,一些分类学习算法只能处理离散值。离散化是一干连续属性的量 化的过程,能显著地扩展许多学习算法的应用范围。常见的正态假设是连续变量, 离散化减少了对于分布假设的依赖性,因此离散数据有时更有效。 1.3 离散化技术分类 离散化技术可以根据如何进行离散化加以分类,如根据是否使用类信息或根 据进行方向(即自顶向下或自底向上)分类。如果离散化过程使用类信息,则称它 为监督离散化(supervised discretization);否则是非监督的(unsupervised)。 如果首先找出一点或几个点(称作分裂点或割点)来划分整个属性区间,然后在结 果区间上递归地重复这一过程,则称它为自顶向下离散化或分裂。自底向上离散 化或合并正好相反,首先将所有的连续值看作可能的分裂点,通过合并相邻域的 值形成区间,然后递归地应用这一过程于结果区间。下面对这些离散化算法给出 具体介绍。 2、无监督离散化与监督离散化 根据数据是否包含类别信息可以把它们分成有监督的数据和无监督的数据。 有监督的离散化要考虑类别信息而无监督的离散化则不需要。 无监督离散化方法在离散过程中不考虑类别属性,其输入数据集仅含有待离 散化属性的值。早期的离散化方法如等频率、等宽度离散化等主要是无监督的离 散化方法。 监督离散化方法是把类别信息带到离散化的过程,其研究主要是围绕量化过 程中所使用的评价函数和终止条件而展开的。 2.1 无监督离散化 已知 X 的值而未知 Y 的值,可以进行聚类。 例 1:现有 94 名学生的数学期末成绩,由于数据不包含类别信息,可以利用 无监督的离散化方法进行分析。 常用的无监督离散化方法有:等频算法、等宽算法和(一维)聚类。 等宽算法是最简单的无监管离散化方法,它根据用户指定的区间数目 K ,将 数值属性的值域[X min , X max ]划分为 K 个区间,并使每个区间宽度相等,即都等 于 (X max ? X min )/ K 。但是,当存在对于区域来说偏斜极为严重的点时,这种离散 化的方法是不适用的。 等频算法也是将数值属性的值域划分为 K 个小区间,K 同样是用户自定义的 区间数目。等频算法与等宽算法的不同之处在于,它不是要求每个区间宽度一样, 而是要求落在每个区间的对象数目相等,也就是说,如果属性的整个取值区间内 共有 M 个点,那么等频区间所划分的 K 个小区域内,每个区域含有 M / K 个邻 近值的点。 K-均值聚类是一种应用广泛的数据聚类算法。在用户指定了离散化产生的区 间数目 K 后,K-均值算法首先从数据集中随机找出 K 个数据作为 K 个初始区间 的重心;然后,根据这些重心的欧式距离,对所有的对象聚类:如果数据 x 距重 心 Gi 最近,则将 x 划归 Gi 所代表的那个区间;然后重新计算各区间的重心,并 利用新的重心重新聚类

文档评论(0)

ranfand + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档