《数据仓库与数据挖掘概述》-精选·课件.ppt

《数据仓库与数据挖掘概述》-精选·课件.ppt

  1. 1、本文档共58页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* User Interface * Can grab data from many different sources and load it into any number of other sources, and perform complex transformations in between 为本次数据挖掘 ETL 操作包括字段。记录 操作 文件操作 * * * 银行信用卡 欺诈 反洗钱 (噪音) OLAP(On-Line Analytical Processing) 商务智能的直接数据来源? OLTP? 数据仓库? 多维数据集? 什么是多维数据集? “多维数据集是一种结构,包含了一个或多个度量。这些度量用于所有维度的成员的每个唯一组合。” OLAP专门用于支持复杂的决策分析操作,侧重对分析人员和高层管理人员的决策支持, OLAP可以应分析人员的要求快速、灵活地进行大数据量的复杂处理,并且以一种直观易懂地形式将查询结果提供给决策制定人 OLAP软件,以它先进地分析功能和以多维形式提供数据的能力,正作为一种支持企业关键商业决策的解决方案而迅速崛起。 OLAP的基本思想是决策者从多方面和多角度以多维的形式来观察企业的状态和了解企业的变化。 3.OLTP与OLAP的对比 OLTP OLAP 细节性数据 综合性数据 当前数据 历史数据 经常更新 不更新,但周期性刷新 一次性处理的数据量小 一次处理的数据量大 对响应时间要求高 响应时间合理 面向应用,事务驱动 面向分析,分析驱动 1.2数据挖掘的兴起 1.2.1 从机器学习到数据挖掘 1.2.2 数据挖掘含义 1.2.3 数据挖掘与OLAP的比较 1.2.4 数据挖掘与统计学 1.2.1 从机器学习到数据挖掘 学习是人类具有的智能行为,主要在于获取知识。 机器学习是研究使计算机模拟或实现人类的学习行为,即让计算机通过算法自动获取知识。 机器学习是人工智能领域中的重要研究方向。 20世纪60年代开始了机器学习的研究。 (1) 1980年在美国召开了第一届国际机器学习研讨会; 明确了机器学习是人工智能的重要研究方向 (2) 1989年8月于美国底特律市召开的第一届知识发现(KDD)国 际学术会议; 首次提出知识发现概念 (3) 1995年在加拿大召开了第一届知识发现和数据挖掘(DM)国际学术会议; 首次提出数据挖掘概念 (4) 我国于1987年召开了第一届全国机器学习研讨会。 1.2.2数据挖掘含义 知识发现(KDD):从数据中发现有用知识的整个过程。 数据挖掘(DM) :KDD过程中的一个特定步骤,它用专门算 法从数据中抽取知识。 如在人类数据库中挖掘知识为: (头发=黑色)∨(眼睛=黑色)→亚洲人 该知识覆盖了所有亚州人的记录。 数据挖掘做什么? 预测未来发生的事情(分类与回归) 将人或事物按照属性聚类 关联可能一起发生的事件(购物篮) 确定事件发生的序列(股票涨落) 异常检测 数据挖掘 啤酒与尿布的故事: 在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售,但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。 原来,美国的妇女们经常会嘱咐她们的丈夫下班以后要为孩子买尿布。而丈夫在买完尿布之后又要顺手买回自己爱喝的啤酒,因此啤酒和尿布在一起购买的机会还是很多的。 1.2.3数据挖掘与OLAP的比较 1. OLAP的多维分析 OLAP的典型应用,通过商业活动变化的查询发现的问题,经过追踪查询找出问题出现的原因,达到辅助决策的作用。 2. 数据挖掘 数据挖掘任务在于聚类(如神经网络聚类)、分类(如决策树分类)、预测等。 1.2.4 数据挖掘与统计学 统计学与国家政治有紧密的关系。 支配着社会现象的法则和方法是概率论。 通过对全部对象(总体)进行调查,为制定计划和决策提供依据。 统计学与数据挖掘的比较 统计学主要是对数量数据(数值)或连续值数据(如年龄、工资等),进行数值计算(如初等运算)的定量分析,得到数量信息。 数据挖掘主要对离散数据(如职称、病症等)进行定性分析(覆盖、归纳等),得到规则知识。 统计学与数据挖掘是有区别的。但是,它们之间是相互补充的。 1.3 数据仓库和数据挖掘的结合 1.3.1 数据仓库和数据挖掘的区别与联系 1.3.2 基于数据仓库的决策支持系统 1.3.3数据仓库与商业智能 1.3.1 数据仓库和数据挖掘的区别与联系 1. 数据仓库与数据挖掘的区别 2.数据仓库与数据挖掘的关系 3.数据仓库中

文档评论(0)

夏天 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档