网站大量收购独家精品文档,联系QQ:2885784924

数据挖掘中的特征选择.pptVIP

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

封装模型:在此模型中,学习算法封装在特征选择的过程中,用特征子集在学习算法上得到的挖掘性能作为特征子集优劣的评估准则。在初始特征空间内进行多次有哪些信誉好的足球投注网站,直至得到最佳的特征子集。01与过滤模型相比,封装模型具有更高的精度,但效率较低,运行速度慢于过滤模型。01数据挖掘中的特征选择数据挖掘中的特征选择数据挖掘中的特征选择数据挖掘中的数据归约问题为什么需要数据挖掘*数据挖掘中的特征选择*数据爆炸问题自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。我们拥有丰富的数据,但却缺乏有用的信息数据爆炸但知识贫乏数据挖掘:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束)数据挖掘是一种从大量数据中寻找其规律的技术。它综合了统计学、数据库技术和人工智能技术数据挖掘数据库越来越大有价值的知识海量的数据数据挖掘的应用市场分析和管理数据分析和决策支持风险分析和管理客户关系管理(CRM),市场占有量分析,交叉销售,目标市场欺骗检测和异常模式的监测(孤立点)风险预测,客户保持,保险业的改良,质量控制,竞争分析文本挖掘(新闻组,电子邮件,文档)和Web挖掘流数据挖掘DNA和生物数据分析其他的应用数据挖掘:数据库中的知识挖掘(KDD)数据挖掘—知识挖掘的核心数据清理数据集成数据库任务相关数据数据仓库Knowledge选择数据挖掘模式评估数据挖掘的步骤了解应用领域1了解相关的知识和应用的目标2创建目标数据集:选择数据3数据清理和预处理:(这个可能要占全过程60%的工作量)4数据缩减和变换5找到有用的特征,维数缩减/变量缩减,不变量的表示6选择数据挖掘的功能7数据总结,分类模型数据挖掘,回归分析,关联规则挖掘,聚类分析等8选择挖掘算法01数据挖掘:寻找感兴趣的模式02模式评估和知识表示03可视化,转换,消除冗余模式等等04运用发现的知识05支持商业决策的潜能不断增长最终用户商业分析家数据分析家DBA决策支持数据表示可视化技术数据挖掘信息发现数据探索在线分析处理(OLAP),多维分析(MDA)统计分析,查询和报告数据仓库/数据市场数据源论文,文件,信息提供商,数据库系统,联机事务处理系统(OLTP)典型数据挖掘系统数据仓库数据清洗过滤数据库模式评估数据库或数据仓库服务器数据挖掘引擎图形用户界面知识库数据集成数据挖掘:多个学科的融合数据挖掘01数据库系统02统计学03其他学科04算法05机器学习06可视化07预言(Predication):用历史预测未来01描述(Description):了解数据中潜在的规律02数据挖掘的分类数据挖掘的主要方法分类(Classification)聚类(Clustering)相关规则(AssociationRule)回归(Regression)其他特征归约在数据挖掘中的作用因为在文本分类、信息检索和生物信息学等数据挖掘的应用领域中,数据的维数往往是很高的。01高维的数据集中包含了大量的特征(属性)。比如一个文本数据集中,每一个文本都可以用一个向量来表示,向量中的每一个元素就是每一个词在该文本中出现的频率。在这种情况下,这个数据集中就存在着成千上万的特征。这种高维的数据给数据挖掘带来了“维灾难”(TheCurseofDimensionality)问题。02特征选择和特征降维是两类特征归约方法。特征选择的一般过程包括:首先从特征全集中产生出一个特征子集,然后用评价函数对该特征子集进行评价,评价的结果与停止准则进行比较,若评价结果比停止准则好就停止,否则就继续产生下一组特征子集,继续进行特征选择。选出来的特征子集一般还要验证其有效性。特征选择的过程(M.DashandH.Liu1997)特征选择大体上可以看作是一个有哪些信誉好的足球投注网站过程,有哪些信誉好的足球投注网站空间中的每一个状态都可以看成是一个可能特征子集。1有哪些信誉好的足球投注网站的算法分为完全有哪些信誉好的足球投注网站(Complete),启发式有哪些信誉好的足球投注网站(Heuristic),随机有哪些信誉好的足球投注网站(Random)3大类。2完全有哪些信誉好的足球投注网站分为穷举有哪些信誉好的足球投注网站与非穷举有哪些信誉好的足球投注网站两类。01020304广度优先有哪些信誉好的足球投注网站(BFS)分支限界有哪些信誉好的足球投注网站(BAB)定向有哪些信誉好的足球投注网站(BS)05最优优先有哪些信誉好的足球投注网站(BestFirstSearch) 启发式有哪些信誉好的足球投注网站序列前向选择(SFS)序列后向选择(SBS)双向有哪些信誉好的足球投注网站(BDS)增L去R选择算法(LRS)序列浮动选择(SequentialFloatin

文档评论(0)

135****6917 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档