1(课件)引言和数据预处理.ppt

  1. 1、本文档共101页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
1(课件)引言和数据预处理

?现代数据挖掘概念的首次国际学术会议  1989年8月在美国底特律召开的第11届国际联合人工智能学术会议(IJCAI-89)上,Gregory Piatetsky-Shapiro组织了“数据库中的知识发现”(KDD:Knowledge Discovery in Database)专题讨论会,该讨论会的重点是强调发现(Discovery)的方法以及发现的是知识(Knowledge)两个方面。?相继开展的专题讨论会 随后在1991、1993和1994年都举行了KDD专题讨论会,来自各个领域的研究人员和应用开发者集中讨论了数据统计、海量数据分析算法、知识表示和知识运用等问题。?第一届KDD国际学术会议?随着参与科研和开发人员的不断增加,国际KDD组委会于1995年把专题讨论会发展成为国际年会。在加拿大的蒙特利尔市召开了第一届KDD国际学术会。其会议名称全称为“ACM SIGKDD(Special Interested Group on Knowledge Discovery in Databases) International Conference on Knowledge Discovery and Data Mining”在这次会议上“数据挖掘”(Data Mining)概念第一次由Usama Fayyad提出。 SIGKDD?Explorations”是ACM?SIGKDD的官方刊物,每年出版两次,并在合适的情况下出版特刊 KDD 2012在中国北京 举行 ,腾讯 赞助KDD杯 * 美国一个著名的科学家说:我们如此幸运拥有如此多的信息,然而又如此不幸淹没在了信息中。 * * * * * 垃圾进,垃圾出 * * 进行了线性变换。 可灵活指定规范化后的取值 区间,可以消除不同属性之间的权重差异。 缺点:需要预先知道该属性的最大值与最小值;另一方面,该方法保持原始数据值之间的联系,如果今后的输入落在原始数据值域之外,该方法将发生“越界”错误。对离群点敏感。(离群点是只偏离中心水平的哪些极大 和极小 ) * 优点:不需要知道数据集的最大 和最小 ,对离群点规范化效果好; 缺点:计算复杂度高。 * * * * 数据挖掘的实践中,使用离散化进行数据规约主要是适用于以下三类属性值…,连续值(比如实数),如果不使用离散化进行表示,其个数将是无穷无尽的。 怎么离散化?…基于判定树的分类挖掘的大部分时间花在数据的分类和比较上(比如一个判定条件为:400?,0-1000的整数将在比较1000次后得出结果,但是如果先将这1000个值划分为10个区间:0-100,100-200…900-1000,则只要比较10次就可以得出结果) * * 数据挖掘的实践中,使用离散化进行数据规约主要是适用于以下三类属性值…,连续值(比如实数),如果不使用离散化进行表示,其个数将是无穷无尽的。 怎么离散化?…基于判定树的分类挖掘的大部分时间花在数据的分类和比较上(比如一个判定条件为:400?,0-1000的整数将在比较1000次后得出结果,但是如果先将这1000个值划分为10个区间:0-100,100-200…900-1000,则只要比较10次就可以得出结果) * 这个示例的图比较小,不知大家是否能看清楚,如果看不清楚,则请参阅书上第59页的图(概念与技术),只是那个图上数字的位数非常多,现在这个示例为了简单化,省略了一些数字位。 参阅书第59页的步骤。 * 数据立方体的聚集(2) 维度约简(Dimensionality reduction) 从数据中去掉不相关的属性(维度)。 去掉相关属性,或者保留不相关属性不利于挖掘。 包含了不相关或冗余属性,会降低挖掘的效率。 属性子集选择。 找出一个最小的属性子集,使得用这些属性来描述的数据的概率分布,等同于(最大限度地等同于)原始数据的概率分布。 常常使用启发式策略来减小有哪些信誉好的足球投注网站空间。 属性子集的选择效果,通常用统计重要性、信息增益等来评价。 属性子集选择(1) 逐步向前选择 在原始数据中,选择“最佳”属性; 在剩余的属性中,继续选择“最佳”属性。 …… 属性子集选择(2) 逐步向后消除 在原始数据中,去掉“最差”属性; 在剩余的属性中,继续去掉“最差”属性。 …… 属性子集选择(3) 逐步向前选择与逐步向后消除相结合 在原始数据中,选择一个“最佳”的属性,去掉一个“最差”的属性; …… 属性子集选择(4) 决策树归纳 训练一棵决策树; 去掉原始数据中,那些没有在决策树中出现的属性。 数值归约(Numerosity reduction) 通过选择更小的数据表示形式来约简数据量。 有参方法 使用一个参数模型估计数据,最后只要存储参数即可,不用存储数据(除了可能的离群点) 常用方法:线性回归方法;多元回归

文档评论(0)

文档精品 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6203200221000001

1亿VIP精品文档

相关文档