网站大量收购独家精品文档,联系QQ:2885784924

数据挖掘原理与算法.pptVIP

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

分类中的基础方法*DataMining:ConceptsandTechniques*决策树方法:基本的分类技术之一,如ID3及其改进算法ID4、ID5、C4.5、C5.0等;针对大训练样本集的SLIQ、SPRINT、雨林(Rainforest)BOAT等算法。神经网络:作为一个相对独立的研究分支已经很早被提出,具有高度的抗干扰能力和可以对未训练数据进行分类等优点,因此产生了神经网络和数据挖掘技术的结合性研究。类比学习:最典型的方法是k-最临近分类(k-NearestNeighborClassification)方法,它属于懒散学习法。贝叶斯分类:具有坚实的理论基础,理论上具有较小的出错率。但是,它的适应性差。遗传算法:是基于进化理论的机器学习方法。其他方法:如粗糙集(RoughSet)、模糊集(FuzzySet)方法等。主要聚类的技术*DataMining:ConceptsandTechniques*基于划分的聚类方法:k-平均算法是统计学中的一个经典聚类方法,它以预先定义好的簇平均值,构造划分,评价和选择他们。基于层次的聚类方法:通过对源数据库中的数据进行层次分解,达到目标簇的逐步生成。凝聚(Agglomeration):由小到大逐步合并、评价。分裂(Division)由大到小逐步分裂、评价。基于密度的聚类方法:基于密度的聚类方法是通过度量区域所包含的对象数目来形成最终目标的。如果一个区域的密度超过指定的值,那么它就需要进一步分解。基于网格的聚类方法:对象空间离散化成有限的网格单元,聚类工作在这种网格结构上进行。基于模型的聚类方法:每个簇假定一个模型,寻找数据对给定模型的最佳拟和。预测型知识挖掘*DataMining:ConceptsandTechniques*预测型知识(Prediction)是指由历史的数据产生的并能推测未来数据趋势的知识。预测性挖掘主要是对未来数据的概念分类和趋势输出。分类技术可以用于产生预测型的类知识。12345预测型知识的挖掘可以结合经典的统计方法、神经网络和机器学习等技术来研究。统计学中的回归方法等可以通过历史数据直接产生对未来数据预测的连续值,因而这些预测型知识已经蕴藏在诸如趋势曲线等输出形式中。预测型知识挖掘中的典型方法*DataMining:ConceptsandTechniques*1趋势预测模式:主要是针对那些具有时序(TimeSeries)属性的数据,如股票价格等,或者是序列项目(SequenceItems)的数据,如年龄和薪水对照等,发现长期的趋势变化等。2周期分析模式:主要是针对那些数据分布和时间的依赖性很强的数据进行周期模式的挖掘。例如,服装在某季节或所有季节的销售周期。3序列模式:主要是针对历史事件发生次序的分析形成预测模式来对未来行为进行预测。例如,预测“三年前购买计算机的客户有很大概率会买数字相机”。4神经网络:在预测型知识挖掘中,神经网络也是很有用的模式结构。特异型知识挖掘*DataMining:ConceptsandTechniques*特异型知识(Exception)是源数据中所蕴涵的极端特例或明显区别于其他数据的知识描述,它揭示了事物偏离常规的异常规律。特异知识挖掘的价值:例如,在Web站点发现那些区别于正常登录行为的用户特点可以防止非法入侵。金融、电信欺诈等分类中的反常实例、不满足普通规则的特例、观测结果与模型预测值的偏差、数据聚类外的离群值等许多技术可以扩展到特异型知识挖掘中,如:孤立点(Outlier)分析:孤立点是指不符合数据的一般模型的数据。在类知识挖掘中,孤立点分析是不能归入正常类知识中的零散数据的再分析。异常序列分析:在一系列行为或事件对应的序列中发现明显不符合一般规律的特异型知识。特异规则发现:产生并评价虽然具有低支持度但可能很有价值的规则。第一章绪论01内容提要02数据挖掘技术的产生与发展03数据挖掘研究的发展趋势04数据挖掘概念05数据挖掘技术的分类问题06数据挖掘常用的知识表示模式与方法07不同数据存储形式下的数据挖掘问题08粗糙集方法及其在数据挖掘中的应用09数据挖掘的应用分析10数据挖掘方法与数据存储类型*DataMining:ConceptsandTechniques*数据挖掘技术应该应用到任何数据存储方式的知识挖掘中,但是因为源数据的存储类型的不同,挖掘的挑战性和技术会不同。近年来的研究表明数据挖掘所涉及的数据存储类型越来越丰富,除了一些有通用价值的模型、构架等

文档评论(0)

SYWL2019 + 关注
官方认证
文档贡献者

权威、专业、丰富

认证主体四川尚阅网络信息科技有限公司
IP属地四川
统一社会信用代码/组织机构代码
91510100MA6716HC2Y

1亿VIP精品文档

相关文档