1(课件)引言和数据预处理解读.ppt

下载文档 降价啦

8
0
约1.52万字
约 101页
2017-03-29 发布于湖北
举报
版权申诉
保障服务

1(课件)引言和数据预处理解读.ppt

1、本文档共101页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

1(课件)引言和数据预处理解读

?现代数据挖掘概念的首次国际学术会议　1989年8月在美国底特律召开的第11届国际联合人工智能学术会议(IJCAI－89)上，Gregory Piatetsky-Shapiro组织了“数据库中的知识发现”(KDD：Knowledge Discovery in Database)专题讨论会，该讨论会的重点是强调发现(Discovery)的方法以及发现的是知识(Knowledge)两个方面。?相继开展的专题讨论会　随后在1991、1993和1994年都举行了KDD专题讨论会，来自各个领域的研究人员和应用开发者集中讨论了数据统计、海量数据分析算法、知识表示和知识运用等问题。?第一届KDD国际学术会议?随着参与科研和开发人员的不断增加，国际KDD组委会于1995年把专题讨论会发展成为国际年会。在加拿大的蒙特利尔市召开了第一届KDD国际学术会。其会议名称全称为“ACM SIGKDD（Special Interested Group on Knowledge Discovery in Databases） International Conference on Knowledge Discovery and Data Mining”在这次会议上“数据挖掘”(Data Mining)概念第一次由Usama Fayyad提出。 SIGKDD?Explorations”是ACM?SIGKDD的官方刊物，每年出版两次,并在合适的情况下出版特刊 KDD 2012在中国北京举行，腾讯赞助KDD杯 * 美国一个著名的科学家说：我们如此幸运拥有如此多的信息，然而又如此不幸淹没在了信息中。 * * * * * 垃圾进，垃圾出 * * 进行了线性变换。可灵活指定规范化后的取值区间，可以消除不同属性之间的权重差异。缺点:需要预先知道该属性的最大值与最小值;另一方面，该方法保持原始数据值之间的联系，如果今后的输入落在原始数据值域之外，该方法将发生“越界”错误。对离群点敏感。(离群点是只偏离中心水平的哪些极大和极小 ) * 优点:不需要知道数据集的最大和最小，对离群点规范化效果好;缺点:计算复杂度高。 * * * * 数据挖掘的实践中，使用离散化进行数据规约主要是适用于以下三类属性值…，连续值（比如实数），如果不使用离散化进行表示，其个数将是无穷无尽的。怎么离散化？…基于判定树的分类挖掘的大部分时间花在数据的分类和比较上（比如一个判定条件为：400?，0－1000的整数将在比较1000次后得出结果，但是如果先将这1000个值划分为10个区间：0-100,100-200…900-1000，则只要比较10次就可以得出结果） * * 数据挖掘的实践中，使用离散化进行数据规约主要是适用于以下三类属性值…，连续值（比如实数），如果不使用离散化进行表示，其个数将是无穷无尽的。怎么离散化？…基于判定树的分类挖掘的大部分时间花在数据的分类和比较上（比如一个判定条件为：400?，0－1000的整数将在比较1000次后得出结果，但是如果先将这1000个值划分为10个区间：0-100,100-200…900-1000，则只要比较10次就可以得出结果） * 这个示例的图比较小，不知大家是否能看清楚，如果看不清楚，则请参阅书上第59页的图（概念与技术），只是那个图上数字的位数非常多，现在这个示例为了简单化，省略了一些数字位。参阅书第59页的步骤。 * 数据立方体的聚集（2）维度约简(Dimensionality reduction) 从数据中去掉不相关的属性（维度）。去掉相关属性，或者保留不相关属性不利于挖掘。包含了不相关或冗余属性，会降低挖掘的效率。属性子集选择。找出一个最小的属性子集，使得用这些属性来描述的数据的概率分布，等同于（最大限度地等同于）原始数据的概率分布。常常使用启发式策略来减小有哪些信誉好的足球投注网站空间。属性子集的选择效果，通常用统计重要性、信息增益等来评价。属性子集选择（1）逐步向前选择在原始数据中，选择“最佳”属性；在剩余的属性中，继续选择“最佳”属性。 …… 属性子集选择（2）逐步向后消除在原始数据中，去掉“最差”属性；在剩余的属性中，继续去掉“最差”属性。 …… 属性子集选择（3）逐步向前选择与逐步向后消除相结合在原始数据中，选择一个“最佳”的属性，去掉一个“最差”的属性； …… 属性子集选择（4）决策树归纳训练一棵决策树；去掉原始数据中，那些没有在决策树中出现的属性。数值归约(Numerosity reduction) 通过选择更小的数据表示形式来约简数据量。有参方法使用一个参数模型估计数据，最后只要存储参数即可，不用存储数据（除了可能的离群点）常用方法：线性回归方法；多元回归