网站大量收购闲置独家精品文档,联系QQ:2885784924

数据挖掘中的特征选择.ppt

  1. 1、本文档共40页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘中的特征选择 数据挖掘的作用 数据挖掘:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束) 数据挖掘是一种从大量数据中寻找其规律的技术。它综合了统计学、数据库技术和人工智能技术 数据挖掘的应用 数据分析和决策支持 市场分析和管理 客户关系管理 (CRM),市场占有量分析,交叉销售,目标市场 风险分析和管理 风险预测,客户保持,保险业的改良,质量控制,竞争分析 欺骗检测和异常模式的监测 (孤立点) 其他的应用 文本挖掘 (新闻组,电子邮件,文档) 和Web挖掘 流数据挖掘 DNA 和生物数据分析 数据挖掘: 数据库中的知识挖掘(KDD) 数据挖掘—知识挖掘的核心 数据挖掘的步骤 了解应用领域 了解相关的知识和应用的目标 创建目标数据集: 选择数据 数据清理和预处理: (这个可能要占全过程60%的工作量) 数据缩减和变换 找到有用的特征,维数缩减/变量缩减,不变量的表示 选择数据挖掘的功能 数据总结, 分类模型数据挖掘, 回归分析, 关联规则挖掘, 聚类分析等 选择挖掘算法 数据挖掘: 寻找感兴趣的模式 模式评估和知识表示 可视化,转换,消除冗余模式等等 运用发现的知识 数据挖掘和商业智能 典型数据挖掘系统 数据挖掘:多个学科的融合 数据挖掘的主要方法 分类(Classification) 聚类(Clustering) 相关规则(Association Rule) 回归(Regression) 其他 特征归约在数据挖掘中的作用 因为在文本分类、信息检索和生物信息学等数据挖掘的应用领域中,数据的维数往往是很高的。 高维的数据集中包含了大量的特征(属性)。比如一个文本数据集中,每一个文本都可以用一个向量来表示,向量中的每一个元素就是每一个词在该文本中出现的频率。在这种情况下,这个数据集中就存在着成千上万的特征。这种高维的数据给数据挖掘带来了“维灾难”(The Curse of Dimensionality)问题。 特征选择和特征降维是两类特征归约方法。 特征选择 特征选择的一般过程包括:首先从特征全集中产生出一个特征子集,然后用评价函数对该特征子集进行评价,评价的结果与停止准则进行比较,若评价结果比停止准则好就停止,否则就继续产生下一组特征子集,继续进行特征选择。选出来的特征子集一般还要验证其有效性。 特征选择的过程 ( M. Dash and H. Liu 1997 ) 特征选择大体上可以看作是一个有哪些信誉好的足球投注网站过程,有哪些信誉好的足球投注网站空间中的每一个状态都可以看成是一个可能特征子集。 有哪些信誉好的足球投注网站的算法分为完全有哪些信誉好的足球投注网站(Complete),启发式有哪些信誉好的足球投注网站(Heuristic),随机有哪些信誉好的足球投注网站(Random) 3大类。 完全有哪些信誉好的足球投注网站分为穷举有哪些信誉好的足球投注网站与非穷举有哪些信誉好的足球投注网站两类。 (1) 广度优先有哪些信誉好的足球投注网站(BFS ) (2) 分支限界有哪些信誉好的足球投注网站(BAB) (3) 定向有哪些信誉好的足球投注网站 (BS) (4) 最优优先有哪些信誉好的足球投注网站(Best First Search)   启发式有哪些信誉好的足球投注网站 (1) 序列前向选择(SFS) (2) 序列后向选择(SBS) (3) 双向有哪些信誉好的足球投注网站(BDS) (4) 增L去R选择算法 (LRS) (5) 序列浮动选择(Sequential Floating Selection) (6) 决策树(DTM) 随机算法 (1) 随机产生序列选择算法(RGSS) (2) 模拟退火算法(SA) (3) 遗传算法(GA)     特征的评价函数 特征的评估函数分为五类:相关性,距离,信息增益,一致性和分类错误率。 常用的有平方距离,欧氏距离,非线性测量,Minkowski距离,信息增益,最小描述长度,互信息,依赖性度量或相关性度量,一致性度量,分类错误率 ,分类正确率 特征选择方法的模型 一般地,特征选择方法可以分为三种模型,分别是:过滤模型、封装模型和混合模型。 过滤模型:根据训练集进行特征选择,在特征选择的过程中并不涉及任何学习算法。即特征子集在学习算法运行之前就被单独选定。但学习算法用于测试最终特征子集的性能。 过滤模型简单且效率很高。由于过滤模型中的特征选择过程独立于学习算法,这就容易与后面的学习算法产生偏差,因此为了克服这个缺点提出了封装模型。 基于过滤模型的算法主要有两类:特征权重和子集有哪些信誉好的足球投注网站。 这两类算法的不同之处在于是对单个特征进行评价还是对整个特征子集进行评价。    特征权重算法对每个特征指定一个权值,并按照它与目标概念的相关度对其进行排序,如果一个特征的相关度权值大于某个阈值,则认为该特征优秀,并且选择该特征。该算法缺点在于:他们可以捕获特征与目标概念间的相关性,却不能发现特征间的冗余性。而经验证明除了无关特征对学习任务的影响,冗余特征同样影响学习算法的速度和准确性,也应尽可能消除冗余特征。Relief算法是一个比较著名的特征权重类方法。 子集有哪些信誉好的足球投注网站算法通过在

文档评论(0)

shaoye348 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档