- 1、本文档共65页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据归约——数据压缩 压缩算法分类: 无损(loseless)压缩:可以不丢失任何信息地还原压缩数据。 例如:字符串压缩 有广泛的理论基础和精妙的算法 有损(lossy)压缩:只能重新构造原数据的近似表示。 例如:音频/视频压缩 有时可以在不解压整体数据的情况下,重构某个片断 数据归约——数值归约 数值归约——用较小的数据表示数据,或采用较短的数据单位,或者用数据模型代表数据,减少数据量。 常用的方法 直方图 用聚类数据表示实际数据 抽样(采样) 4.参数回归法 利用分箱方法对数据分布情况进行近似 数值归约——直方图(“频率-值”对应关系图) 数值归约——用聚类数据表示实际数据 优点:获取样本的时间仅与样本规模成正比 方法: 不放回简单随机抽样 放回简单随机抽样 聚类抽样:先聚类,再抽样 分层抽样:先分层,再抽样 数值归约——抽样(采样) 不放回简单随机抽样 放回简单随机抽样 聚类抽样 分层抽样 数值归约——参数回归法 通常采用一个模型来评估数据,该方法只需要存放参数,而不是实际数据。能大大简少数据量,但只对数值型数据有效。 方法: 线性回归 非线性回归 数据归约——离散化与概念分层生成 三种类型的属性值: 名称型——e.g. 无序集合中的值 序数——e.g. 有序集合中的值 连续值——e.g. 实数 离散化技术 以通过将属性(连续取值)域值范围分为若干区间,来帮助消减一个连续(取值)属性的取值个数。 概念分层 概念分层定义了一组由低层概念集到高层概念集的映射。它允许在各种抽象级别上处理数据,从而在多个抽象层上发现知识。用较高层次的概念替换低层次(如年龄的数值)的概念,以此来减少取值个数。虽然一些细节在数据泛化过程中消失了,但这样所获得的泛化数据或许会更易于理解、更有意义。在消减后的数据集上进行数据挖掘显然效率更高。 概念分层结构可以用树来表示,树的每个节点代表一个概念。 数据归约——概念分层生成 数值数据的概念分层生成方法 a.分箱 属性的值可以通过将其分配到各分箱中而将其离散化。利用每个分箱的均值和中数替换每个分箱中的值(利用均值或中数进行平滑)。循环应用这些操作处理每次操作结果,就可以获得一个概念层次树。 b.直方图 循环应用直方图分析方法处理每次划分结果,从而最终自动获得多层次概念树,而当达到用户指定层次水平后划分结束。最小间隔大小也可以帮助控制循环过程,其中包括指定一个划分的最小宽度或每一个层次每一划分中数值个数等。 c.聚类 聚类算法可以将数据集划分为若干类或组。每个类构成了概念层次树的一个节点;每个类还可以进一步分解为若干子类,从而构成更低水平的层次。当然类也可以合并起来构成更高层次的概念水平。 d.基于熵的离散化 数值数据的概念分层生成方法 e.自然划分分段 将数值区域划分为相对一致的、易于阅读的、看上去更直观或自然的区间。 聚类分析产生概念分层可能会将一个工资区间划分为:[51263.98, 60872.34] 通常数据分析人员希望看到划分的形式为[50000,60000] 划分方法:3-4-5规则 如果一个区间最高有效位上包含3,6,7或9个不同的值,就将该区间划分为3个等宽子区间;(7?2,3,2) 如果一个区间最高有效位上包含2,4,或8个不同的值,就将该区间划分为4个等宽子区间; 如果一个区间最高有效位上包含1,5,或10个不同的值,就将该区间划分为5个等宽子区间; 将该规则递归的应用于每个子区间,产生给定数值属性的概念分层; 对于数据集中出现的最大值和最小值的极端分布,为了避免上述方法出现的结果扭曲,可以在顶层分段时,选用一个大部分的概率空间(如 5%-95%),越出顶层分段的特别高和特别低的采用类似的方法形成单独的区间。 数值数据的概念分层生成方法 分类(类别)数据的概念分层生成方法 类别属性可取有限个不同的值且这些值之间无大小和顺序。这样的属性有:国家、工作、商品类别等。 构造类别属性的概念层次树的主要方法: 1. 通过指定属性之间的包含关系产生分层 2. 对数据进行分组(聚合)产生分层 3. 由属性值的个数产生分层 4. 根据数据语义产生分层 分类(类别)数据的概念分层生成方法 类别属性可取有限个不同的值且这些值之间无大小和顺序。这样的属性有:国家、工作、商品类别等。 构造类别属性的概念层次树的主要方法: 通过指定属性之间的包含关系产生分层 例如:一个关系数据库中的地点属性将会涉及以下属性:街道、城市、省和国家。根据数据库模式定义时的描述,可以很容易地构造出(含有顺序语义)层次树,即:街道/城市/省/国家 对数据进行分组(聚合)产生分层 例如:在模式定义基础构造了省和国家的层次树,这时可以手工加入:安徽、江苏、山东?华东地区;广东、福建?华南地区等“地区”中间层次。 噪声数据的
您可能关注的文档
- 神秘的面具世界研究报告.ppt
- 危重病人的皮肤护理研究报告.ppt
- 兽医临床病理6口蹄疫研究报告.ppt
- 危重病人麻醉的思路研究报告.ppt
- 兽医临床药物应用知识研究报告.ppt
- 瘦月清霜梦有知研究报告.ppt
- 书法(横法)1研究报告.ppt
- 书法《以横为主笔的字》研究报告.ppt
- 神奇的风,风的作用研究报告.ppt
- 第三章细胞生物学方法课稿.ppt
- 中考语文总复习语文知识及应用专题5仿写修辞含句子理解市赛课公开课一等奖省课获奖课件.pptx
- 湖南文艺版(2024)新教材一年级音乐下册第二课《藏猫猫》精品课件.pptx
- 湖南文艺版(2024)新教材一年级音乐下册第三课《我向国旗敬个礼》精品课件.pptx
- 高中生物第四章生物的变异本章知识体系构建全国公开课一等奖百校联赛微课赛课特等奖课件.pptx
- 整数指数幂市公开课一等奖省赛课微课金奖课件.pptx
- 一年级音乐上册第二单元你早全国公开课一等奖百校联赛微课赛课特等奖课件.pptx
- 八年级数学上册第二章实数27二次根式第四课时习题省公开课一等奖新课获奖课件.pptx
- 九年级物理全册11简单电路习题全国公开课一等奖百校联赛微课赛课特等奖课件.pptx
- 八年级语文下册第五单元19邹忌讽齐王纳谏省公开课一等奖新课获奖课件.pptx
- 2024年秋季新人教PEP版3年级上册英语全册教学课件 (2).pptx
文档评论(0)