- 1、本文档共103页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
无监督离散化**协同计算与知识工程原始数据等宽离散化等频离散化K-means等宽方法是将属性值域划分成相同宽度的区间。可能造成有的区间包含许多实例,有的区间很少实例。等频方法将相同数量的对象放到每个区间。有监督离散化**协同计算与知识工程基于熵的离散化(Entropybasedapproach)通过自然划分分段**协同计算与知识工程将数值区域划分为相对一致的、易于阅读的、看上去更直观或自然的区间。聚类分析产生概念分层可能会将一个工资区间划分为:[51263.98,60872.34]通常数据分析人员希望看到划分的形式为[50000,60000]自然划分的3-4-5规则常被用来将数值数据划分为相对一致,“更自然”的区间自然划分的3-4-5规则规则的划分步骤:如果一个区间最高有效位上包含3,6,7或9个不同的值,就将该区间划分为3个等宽子区间;(7?2,3,2)例如区间:-10000—20000,该区间的最高有效位msd=10000,则该区间跨越了(20000-(-10000))/10000=3个不同的值。如果一个区间最高有效位上包含2,4,或8个不同的值,就将该区间划分为4个等宽子区间;如果一个区间最高有效位上包含1,5,或10个不同的值,就将该区间划分为5个等宽子区间;将该规则递归的应用于每个子区间,产生给定数值属性的概念分层;对于数据集中出现的最大值和最小值的极端分布,为了避免上述方法出现的结果扭曲,可以在顶层分段时,选用一个大部分的概率空间。e.g.5%-95%**协同计算与知识工程(-$400-$5,000)(-$400-0)(-$400--$300)(-$300--$200)(-$200--$100)(-$100-0)(0-$1,000)(0-$200)($200-$400)($400-$600)($600-$800)($800-$1,000)($2,000-$5,000)($2,000-$3,000)($3,000-$4,000)($4,000-$5,000)($1,000-$2,000)($1,000-$1,200)($1,200-$1,400)($1,400-$1,600)($1,600-$1,800)($1,800-$2,000)msd=1,000 Low=-$1,000 High=$2,000第二步第四步第一步-$351 -$159 profit $1,838 $4,700 MinLow(i.e,5%-tile) High(i.e,95%-0tile)Maxcount(-$1,000-$2,000)(-$1,000-0)(0-$1,000)第三步($1,000-$2,000)-$400,$5000分类数据的概念分层生成**协同计算与知识工程分类数据是指无序的离散数据,它有有限个值(可能很多个)。分类数据的概念分层生成方法**协同计算与知识工程如:关系数据库或数据仓库的维location可能包含如下属性组:street,city,province_or_state和country。可以在模式级说明这些属性的全序,如:streetcityprovince_or_statecountry,来定义分层。由用户或专家在模式级显示地说明属性的偏序(或全序)可以很容易地定义概念分层。分类数据的概念分层生成方法**协同计算与知识工程内容提要**协同计算与知识工程数据及数据类型1为什么要预处理数据?2描述数据的汇总(为数据预处理提供分析的基础)3数据清理4数据集成和变换5数据归约6相似度计算7数据归约**协同计算与知识工程为什么需要进行数据规约?数据仓库中往往存有海量数据在整个数据集上进行复杂的数据分析与挖掘需要很长的时间数据归约数据归约可以用来得到数据集的归约表示,它小得多,但可以产生相同的(或几乎相同的)分析结果数据归约策略数据立方体聚集维归约数据压缩数值归约数据立方体聚集(例子)**协同计算与知识工程例如你收集的数据是2002-2004年每个季度的销售数据,然而,你感兴趣的是年销售(每年
您可能关注的文档
- 污泥环境管理要求.ppt
- 文言文复习之实词一词多义.ppt
- 植物组织培养的基本方法.ppt
- 执教者朱莉莎二九四月.ppt
- 植物生理学教案-第二章呼吸作用.ppt
- 有限元方法在导电胶互连可靠性分析中的应用.ppt
- 燃料供给系结构的组成和工作原理.ppt
- 曲线拟合的最小二乘法.ppt
- 我爱读书课外阅读指导.ppt
- 汽修行业中的安全生产问题.ppt
- 2024年陕西咸阳亨通电力(集团)有限公司供电服务业务部直聘用工招聘145人笔试参考题库附带答案详解 .docx
- 2024年中建四局土木工程有限公司校园招聘笔试参考题库附带答案详解 .docx
- 2024年四川雅茶贸易有限公司公开招聘和考察聘用人员3人笔试参考题库附带答案详解 .docx
- 2024年中国烟草总公司辽宁省公司公开招聘拟录用人员(166人)笔试参考题库附带答案详解 .docx
- 2024江苏连云港中诚物业管理有限公司招聘工作人员1人笔试参考题库附带答案详解 .docx
- [毕节]2025年贵州毕节市引进人才649人笔试历年参考题库附带答案详解.docx
- 2024年度中国东航技术应用研发中心有限公司校园招聘笔试参考题库附带答案详解 .docx
- 2024年福建省厦门盐业有限责任公司春季人才招聘1人笔试参考题库附带答案详解 .docx
- 2024年山东省环保发展集团绿能有限公司职业经理人招聘2人笔试参考题库附带答案详解 .docx
- 2024年安徽滁州郊源阳光电力维修工程有限责任公司招聘41人(第一批次)笔试参考题库附带答案详解 .docx
文档评论(0)