网站大量收购闲置独家精品文档,联系QQ:2885784924

数据挖掘综述.ppt

  1. 1、本文档共51页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

电话收费和管理办法加拿大BC省电话公司要求加拿大SimonFraser大学KDD研究组根据其拥有的十多年的客户数据,总结、分析并提出新的电话收费和管理办法,制定既有利于公司又有利于客户的优惠政策。10成功案例第48页,共51页,星期六,2024年,5月竞技运动中的数据挖掘大约20个NBA球队使用了IBM公司开发的数据挖掘应用软件AdvancedScout系统来优化他们的战术组合。例如Scout就因为研究了魔术队队员不同的布阵安排,在与迈阿密热队的比赛中找到了获胜的机会。

----系统分析显示魔术队先发阵容中的两个后卫安佛尼.哈德卫(AnferneeHardaway)和伯兰.绍(BrianShaw)在前两场中被评为-17分,这意味着他俩在场上,本队输掉的分数比得到的分数多17分。然而,当哈德卫与替补后卫达利尔.阿姆斯创(DarrellArmstrong)组合时,魔术队得分为正14分。

第49页,共51页,星期六,2024年,5月数据挖掘技术在商业银行中的应用数据挖掘技术在美国银行金融领域应用广泛。金融事务需要搜集和处理大量数据,对这些数据进行分析,发现其数据模式及特征,然后可能发现某个客户、消费群体或组织的金融和商业兴趣,并可观察金融市场的变化趋势。Mellon银行使用IntelligentAgent数据挖掘软件提高销售和定价金融产品的精确度,如家庭普通贷款。第50页,共51页,星期六,2024年,5月第51页,共51页,星期六,2024年,5月4.数据挖掘研究的内容目前DMKD的主要研究内容包括:基础理论、发现算法、数据仓库、可视化技术、定性定量互换模型、知识表示方法、发现知识的维护和再利用、半结构化和非结构化数据中的知识发现以及网上数据挖掘等。第16页,共51页,星期六,2024年,5月数据挖掘所发现的知识最常见的有以下几类:4.1广义知识(Generalization)4.2关联知识(Association)4.3分类知识(ClassificationClustering)4.4预测型知识(Prediction)4.5偏差型知识(Deviation)第17页,共51页,星期六,2024年,5月4.1广义知识(Generalization)广义知识指类别特征的概括性描述知识。根据数据的微观特性发现其表征的、带有普遍性的、较高层次概念的知识,反映同类事物共同性质,是对数据的概括、精炼和抽象。

第18页,共51页,星期六,2024年,5月广义知识的发现方法和实现技术有很多,如数据立方体、面向属性的归约等。数据立方体:基本思想是实现某些常用的代价较高的聚集函数的计算,诸如计数、求和、平均、最大值等,并将这些实现视图储存在多维数据库中。面向属性的归约方法:基本思想是收集数据库中的相关数据集,然后在相关数据集上应用一系列数据推广技术进行数据推广,包括属性删除、概念树提升、属性阈值控制、计数及其他聚集函数传播等。

第19页,共51页,星期六,2024年,5月4.2关联知识(Association)它反映一个事件和其他事件之间依赖或关联的知识。如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。最为著名的关联规则发现方法是R.Agrawal提出的Apriori算法。第20页,共51页,星期六,2024年,5月关联规则的发现可分为两步:第一步是迭代识别所有的频繁项目集,要求频繁项目集的支持率不低于用户设定的最低值;第二步是从频繁项目集中构造可信度不低于用户设定的最低值的规则。第21页,共51页,星期六,2024年,5月分类知识(Classification&Clustering)分类知识反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。最为典型的分类方法是基于决策树的分类方法。它是从实例集中构造决策树,是一种有指导的学习方法。第22页,共51页,星期六,2024年,5月数据分类还有统计、粗糙集(RoughSet)等方法。线性回归和线性辨别分析是典型的统计模型。为降低决策树生成代价,人们还提出了一种区间分类器。最近也有人研究使用神经网络方法在数据库中进行分类和规则提取。

第23页,共51页,星期六,2024年,5月4.4预测型知识(Prediction)预测知识根据时间序列型数据,由历史的和当前的数据去推测未来的数据,也可以认为是以时间

文档评论(0)

xiaozhuo2022 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档