- 1、本文档共53页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘和环境保护.
1. 数据库与数据仓库 从数据库到数据仓库 什么是数据仓库 数据仓库中的数据组织 数据仓库体系化环境 从数据库到数据仓库 传统的数据库技术——以单一的数据资源为中心,着重事务处理, 竞争环境要求科学、准确、快速的决策。 传统数据库不适宜DSS: 处理的性能特性不同 事务处理:数据的存取操作频繁,响应要求高、并发性好 分析处理:占用系统资源多,运行速度慢,用户少 数据集成问题 事务处理:只需与自己相关的数据 分析处理:要求数据全面 数据动态集成问题 分析处理:需要数据动态集成 事务处理:只具备静态集成、无法动态集成 历史数据问题 事务处理:只处理当前数据 分析处理:必须对历史数据进行详细分析 数据的综合问题 事务处理:涉及数据细节过多 分析处理:需对数据进行各种综合 从数据库到数据仓库 20世纪中后期开始出现数据仓库思想的萌芽 1992年W.H.Inmon在Building the Data Warehouse一书中提出数据仓库的概念。 1992年,E.F.Codd提出数据仓库多维分析的概念,和12条OLAP的准则 各大数据库厂商纷纷推出自己的产品 IBM Oracle Informix Sybase 什么是数据仓库 “数据仓库是作为DSS服务基础的分析型DB,用于存放大容量的只读数据,为制定决策提供所需的信息” “数据仓库是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的、面向主题及不可更新的数据集合。” 数据仓库将分布在企业网络中不同信息岛上的业务数据集成到一起,存储在一个单一的集成关系型数据库中,利用这种集成信息,可方便用户对信息的访问,更可使决策人员对一段时间内的历史数据进行分析,研究事物发展走势 数据仓库之父W.H.Inmon:”数据仓库是集成的面向主题的数据库集合,用于支持决策支持功能,其中每个数据单位都与时间相关。” 操作型数据与分析型数据的区别 数据仓库的四个基本特征 数据是面向主题的 什么是主题(是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象) 面向主题的数据组织方式(是在较高层次上对分析对象的数据的完整、一致的描述,能完整、统一地刻画各个分析对象所涉及地企业的各项数据以及数据之间的联系) 数据是集成的 数据不可更新 数据随时间不断变化 面向应用进行数据组织的特点 对相关组织、部门进行调查,收集数据库的基础数据及其处理过程,重点在于数据和处理 反映一个部门内数据的动态特征,即表达数据流程 数据库中的数据模式与实际业务中的数据有很好的对应关系 数据的组织方式没有体现数据库的原本意图——数据与处理的分离。 面向主题的数据组织 抽取主题 确定每个主题所应包含的数据内容。 数据挖掘和数据仓库的关系 数据仓库和数据挖掘的区别 数据挖掘大部分需要把数据从数据仓库中抽出 数据挖掘也可以通过把几个事务数据库导入一个只读数据库中进行数据挖掘 数据挖掘和在线分析处理(OLAP)的关系 OLAP是先建立一个假设,然后证实或者推翻这个假设,是演绎推理的过程 数据挖掘通过探索和寻找模型,是归纳的过程 二者具有互不性, OLAP通过对数据的深层分析使数据挖掘更为有效 数据挖掘的基本方法 数据挖掘技术和算法 数理统计方法 决策树:分类 神经网络:聚集,偏差分析… 归纳逻辑程序 遗传算法 模糊逻辑 约略集rough set concept learning概念学习 简单的基于规则的推理 数理统计与数据挖掘 数据挖掘的本质是很偶然的发现非预期但很有价值的信息,其过程本质上是实验性的 数据挖掘是几门学科的综合 ,当然包括数理统计 数理统计的核心问题就是在观察了样本的情况下如何去推断总体 数理统计的几个常用的方法 回归分析 聚类分析 主成分分析 回归分析 数据挖掘的软件实现 模型发布(Deployment) 把数据挖掘模型的结果送到相应的管理人员手中 对模型进行日常的监测和维护 定期更新数据挖掘模型 数据源 数据仓库 数据集市 数据挖掘集市 * * 面向分析 面向应用 一次操作数据量大 一次操作数据量小 支持管理需求 支持日常操作 声明周期不同 生命周期符合SDLC 对性能要求宽松 对性能要求高 一个时刻操作一集合 一个时刻操作一单元 预先不知道 预先知道操作需求 分析驱动 事务驱动 不可更新 可更新 代表过去的数据 在存取瞬间是准确的 综合的、或提炼的 细节的 分析型数据 操作型数据 大 纲 什么是数据挖掘 数据挖掘的标准流程:CRISP-DM 数据挖掘工具——SPSS Clementine简介 第一部分:什么是数据挖掘? 数据挖掘都干了些什么? 英国电信需要发布一种新的产品,需要通过直邮的方式向客户推荐这种产品。。。。。。 使直邮的回应率提高
文档评论(0)