- 1、本文档共53页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
3.数据预处理要点
* * * * MK 09/09/05: Wiki has dimensionality reduction as feature extraction (PCA) and feature subset selection. It states both wavelet transforms and PCA as forms of data compression. It does not have any pages for numerosity reduction. We claim there are many different ways to organize data reduction strategies, which is true, so this presentation below should be OK. Let’s discuss. * * * * 数据挖掘的实践中,使用离散化进行数据规约主要是适用于以下三类属性值…,连续值(比如实数),如果不使用离散化进行表示,其个数将是无穷无尽的。 怎么离散化?…基于判定树的分类挖掘的大部分时间花在数据的分类和比较上(比如一个判定条件为:400?,0-1000的整数将在比较1000次后得出结果,但是如果先将这1000个值划分为10个区间:0-100,100-200…900-1000,则只要比较10次就可以得出结果) * 人工进行概念分层是一项乏味耗时的工作。实际数据挖掘操作中,我们发现很多分层蕴涵在数据库的模式中,因而可以自动的产生概念分层。或者可以对数据的统计分析动态的加以提炼,产生概念分层。 数值属性的概念分层可以根据数值分布分析自动的构造,我们主要考察5中方法: 分箱、递归的:比如将10,000个值,每个箱子中放10个,则可以将其规约为1000个值;如果要求将这10,000个值规约为10个概念,则只要将上述分箱方法递归的使用3次就可以了。 * 现在来看看离散化的定义以及一种我们在前面已经提到过的离散化技术——概念分层… 概念分层后,数据的细节丢失了,但是概化后的数据更有意义,更容易解释,而且所需的存储空间更少。有效的减少I/O支出 * 在这里有个概念首先要弄清楚:属性的序。属性的序代表的是属性间的一个包含关系,说明它们在概念分层上层次的高低,比如有这么个序: streetcityprovincecountry,就说明了他们在概念分层上… 数据仓库中的location可能定义了如下属性street,city,province,country和一个全序说明:streetcityprovincecountry,则我们可以根据这个信息通过概念分层进行信息汇总。 直接指定一部分数据在概念分层上的序关系:比如{杭州,宁波,温州} ∈浙江,来指定概念分层。(数据多的时候这个方法就不行了) 过会我们将给出一个例子,看系统如何自动生成属性的序。 用户只说明部分属性集的情况可能是常常发生的,比如上面那个例子: street,city,province,country;用户可能只说明city和province两个属性(他可能是粗心,或是对属性毫无概念);在这种情况下,概念分层就有赖于相关属性值(street,province)的恢复。要做到这一点,可以在定义数据库模式时将这4个属性捆绑在一起。 * 好,现在我们来看看刚才提到的那个系统根据某种算法自动产生属性的序,系统往往可以根据数据的内在联系而产生一些自动算法来生成概念分层。比如我们知道这么一个事实,在一个有序的属性集中,越底层的属性集将有越多的不同值跟它相对应,而越高层的属性值将有越少的不同值跟它相对应。因为底层属性的值要通过汇总才可以生成高层属性的值,而汇总就意味着不同值个数的减少。因此… * * * MK 08.11.02: This needs to be updated to reflect changes. 数据值冲突的检测与处理 对于现实世界的同一实体,来自不同数据源的属性值可能不同。这可能是因为表示、尺度或编码不同。 属性也可能在不同的抽象层,其中属性在一个系统中记录的抽象层可能比另一个系统中“相同的”属性低。 * * 第3章:数据预处理 数据预处理: 概述 数据质量 预处理中的主要任务 数据清理 数据集成 数据规约 数据变换和数据离散化 小结 * 数据规约策略 数据归约(data reduction)技术可以用来得到数据集的归约表示,它小得多,但仍接近于保持原始数据的完整性。也就是说,在归约后的数据集上挖掘将更有效,仍然产生相同(或几乎相同)的分析结果。 规约策略 维归约, e.g., remove unimportant attributes Wavelet transforms Princ
您可能关注的文档
- 3-3系统的优化.ppt
- 方程的提高训练.ppt
- 旅客乘务试卷A1.doc
- 旅地理学第一次课.ppt
- 3-1+自然地理要素变化与环境变迁(湘教版)+2.ppt
- 旅客乘务试卷B1.doc
- 旅店业卫生制度.doc
- 3-信息系统与伦理挑战.ppt
- 3-4难溶电解质的溶解平衡.ppt
- 旅行是检验情侣的最好标准.docx
- 2025届衡阳市第八中学高三一诊考试物理试卷含解析.doc
- 2025届湖南省娄底市双峰一中等五校重点中学高三第二次诊断性检测物理试卷含解析.doc
- 天水市第一中学2025届高三第二次联考物理试卷含解析.doc
- 2025届金华市重点中学高三考前热身物理试卷含解析.doc
- 2025届北京市石景山区第九中学高三第四次模拟考试物理试卷含解析.doc
- 江苏扬州市2025届高三第一次模拟考试物理试卷含解析.doc
- 2025届江苏省南通市高级中学高考物理五模试卷含解析.doc
- 广东省清远市华侨中学2025届高三第一次调研测试物理试卷含解析.doc
- 辽宁省凤城市2025届高三第五次模拟考试物理试卷含解析.doc
- 内蒙古巴彦淖尔市重点中学2025届高考仿真卷物理试卷含解析.doc
最近下载
- 运输企业管理系统数据库设计.doc VIP
- 2024年江西机电职业技术学院单招职业技能测试题库(含答案).docx VIP
- 方剂学方歌大全.doc
- 炼油炼化企业燃料气回收及火炬操作规程.docx VIP
- 《给水排水工程顶管技术规程》.pdf
- 北京市海淀区2024-2025学年高二上学期期末考试历史试卷(含答案).pdf
- 吉利汽车:2021年年报.PDF
- (高清版)H-Y-T 0347-2022 海水中痕量铵盐的测定 流动分析-邻苯二甲醛固相萃取-荧光光度法.pdf VIP
- 2025必威体育精装版字帖5年级下册_田楷.pdf
- (人教2024版新教材)英语七年级下册Unit 5 大单元教学设计.docx
文档评论(0)