网站大量收购闲置独家精品文档,联系QQ:2885784924

数据挖掘中的特征选择.pptVIP

  1. 1、本文档共40页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

数据挖掘中的数据归约问题

为什么需要数据挖掘

数据爆炸问题自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。我们拥有丰富的数据,但却缺乏有用的信息数据爆炸但知识贫乏

数据挖掘的作用数据挖掘:在大量的数据中挖掘感兴趣的知识〔规那么,规律,模式,约束〕数据挖掘是一种从大量数据中寻找其规律的技术。它综合了统计学、数据库技术和人工智能技术2025/1/8数据挖掘中的特征选择3

数据挖掘数据库越来越大有价值的知识海量的数据2025/1/8数据挖掘中的特征选择4

数据挖掘的应用数据分析和决策支持市场分析和管理客户关系管理(CRM),市场占有量分析,交叉销售,目标市场风险分析和管理风险预测,客户保持,保险业的改进,质量控制,竞争分析欺骗检测和异常模式的监测(孤立点)其他的应用文本挖掘(新闻组,电子邮件,文档)和Web挖掘流数据挖掘DNA和生物数据分析2025/1/8数据挖掘中的特征选择5

数据挖掘:数据库中的知识挖掘(KDD)数据挖掘—知识挖掘的核心数据清理数据集成数据库数据仓库Knowledge任务相关数据选择数据挖掘模式评估2025/1/8数据挖掘中的特征选择6

数据挖掘的步骤了解应用领域了解相关的知识和应用的目标创立目标数据集:选择数据数据清理和预处理:(这个可能要占全过程60%的工作量)数据缩减和变换找到有用的特征,维数缩减/变量缩减,不变量的表示选择数据挖掘的功能数据总结,分类模型数据挖掘,回归分析,关联规那么挖掘,聚类分析等2025/1/8数据挖掘中的特征选择7

选择挖掘算法数据挖掘:寻找感兴趣的模式模式评估和知识表示可视化,转换,消除冗余模式等等运用发现的知识2025/1/8数据挖掘中的特征选择8

数据挖掘和商业智能支持商业决策的潜能不断增长最终用户商业分析家数据分析家DBA决策支持数据表示可视化技术数据挖掘信息发现数据探索在线分析处理〔OLAP),多维分析(MDA)统计分析,查询和报告数据仓库/数据市场数据源论文,文件,信息提供商,数据库系统,联机事务处理系统(OLTP)2025/1/8数据挖掘中的特征选择9

典型数据挖掘系统数据仓库数据清洗过滤数据库数据库或数据仓库效劳器数据挖掘引擎模式评估图形用户界面知识库数据集成2025/1/8数据挖掘中的特征选择10

数据挖掘:多个学科的融合数据挖掘数据库系统统计学其他学科算法机器学习可视化2025/1/8数据挖掘中的特征选择11

数据挖掘的分类预言〔Predication〕:用历史预测未来描述〔Description〕:了解数据中潜在的规律2025/1/8数据挖掘中的特征选择12

数据挖掘的主要方法分类〔Classification〕聚类(Clustering)相关规那么(AssociationRule)回归(Regression)其他2025/1/8数据挖掘中的特征选择13

特征归约在数据挖掘中的作用因为在文本分类、信息检索和生物信息学等数据挖掘的应用领域中,数据的维数往往是很高的。高维的数据集中包含了大量的特征(属性)。比方一个文本数据集中,每一个文本都可以用一个向量来表示,向量中的每一个元素就是每一个词在该文本中出现的频率。在这种情况下,这个数据集中就存在着成千上万的特征。这种高维的数据给数据挖掘带来了“维灾难”(TheCurseofDimensionality)问题。2025/1/8数据挖掘中的特征选择14

特征选择和特征降维是两类特征归约方法。2025/1/8数据挖掘中的特征选择15

特征选择特征选择的一般过程包括:首先从特征全集中产生出一个特征子集,然后用评价函数对该特征子集进行评价,评价的结果与停止准那么进行比较,假设评价结果比停止准那么好就停止,否那么就继续产生下一组特征子集,继续进行特征选择。选出来的特征子集一般还要验证其有效性。2025/1/8数据挖掘中的特征选择16

特征选择的过程(M.DashandH.Liu1997)2025/1/8数据挖掘中的特征选择17

特征选择大体上可以看作是一个有哪些信誉好的足球投注网站过程,有哪些信誉好的足球投注网站空间中的每一个状态都可以看成是一个可能特征子集。有哪些信誉好的足球投注网站的算法分为完全有哪些信誉好的足球投注网站(Complete),启发式有哪些信誉好的足球投注网站(Heuristic),随机有哪些信誉好的足球投注网站(Random)3大类。2025/1/8数据挖掘中的特征选择18

完全有哪些信誉好的足球投注网站分为穷举有哪些信誉好的足球投注网站与非穷举有哪些信誉好的足球投注网站两类。(1)广度优先有哪些信誉好的足球投注网站(BFS)(2)分支限界有哪些信誉好的足球投注网站(BAB)(3)定向有哪些信誉好的足球投注网站(BS)(4)最优优先有哪些信誉好的足球投注网站(BestFirstSearch) 2025/1/8数据挖掘中的特征选择19

启发式有哪些信誉好的足球投注网站(1)序列前向选择(SFS)(2)序列后向选择(SBS)(3)双向有哪些信誉好的足球投注网站(BDS)(4

文档评论(0)

寒傲似冰 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8071104010000026

1亿VIP精品文档

相关文档