网站大量收购闲置独家精品文档,联系QQ:2885784924

数据挖掘(基于数据挖掘导论pdf).doc

  1. 1、本文档共2页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘(基于数据挖掘导论pdf)

数据预处理 数据清洗 主要用于填补数据记录中的遗漏数据,识别异常数据,以及纠正数据中的不一致问题 : 遗漏数据处理:忽略该条记录 遗漏比例较大时不很有效 ,手工填补遗漏值 大规模数据可行性差 ,利用缺省值填补遗漏值,利用均值填补遗漏值,利用同类别均值填补遗漏值 尤其在进行分类挖掘时 ,利用最可能的值填补遗漏值 可以利用回归分析、贝叶斯计算公式或决策树推断出该条记录特定属性的最大可能的取值,最常用 噪声数据处理:Bin方法,聚类方法,人机结合检查方法,回归方法 如线性回归方法,多变量回归方法 不一致数据处理: 数据集成处理 来自多个数据源的数据 :模式集成,冗余问题 冗余属性 ,数据值冲突检测与消除 数据转换处理 用于将数据转换成适合数据挖掘的形式 :平滑处理 bin方法,聚类方法,回归方法 ,合计处理,数据泛化处理,规格化 最大最小规格化方法,零均值规格化方法,十基数变换规格化方法 ,属性构造, 数据消减:数据立方合计 主要用于构造数据仓库操作 ,维数消减 主要用于检测和消除无关、弱相关、或冗余的属性 ,数据压缩 利用编码技术压缩数据集的大小,方法:小波分析 更适合对高维数据进行处理变换 ,主要素分析 PCA 能较好地处理稀疏数据 ,数据块消减 利用更简单的数据表达形式来取代原有的数据如:参数模型 如线性回归模型 ,非参数模型 聚类、采样[SRSWOR方法,SRSWR方法,聚类采样方法,分层采样方法]、直方图 等宽方法,等高方法,V-Optimal方法,MaxDiff方法 等 ,离散化与概念层次生成 离散化和概念层次树生成:数值概念层次树生成 Bin方法,直方图方法,聚类分析方法,基于熵的离散化方法,自然划分分段方法 3-4-5规则 ,类别概念层次树生成 数据泛化 数据立方方法 OLAP方法 基于属性的归纳方法 AOI方法 属性相关分析 属性相关分析过程:数据收集,利用保守AOI方法进行属性相关分析,利用所确定评估标准评估每个初选后的属性,消除无关或弱相关的属性,利用AOI方法生成概念描述 分类与预测

文档评论(0)

juhui05 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档