网站大量收购闲置独家精品文档,联系QQ:2885784924

数据挖掘第一章课件.ppt

  1. 1、本文档共24页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘第一章课件

第一 章 引 论 1.1 为什么进行数据挖掘 1.2 什么是数据挖掘 1.3 可以挖掘什么类型的数据 1.4 可以挖掘什么类型的模式 1.5 使用什么技术 1.6 面向什么类型的应用 1.7 数据挖掘的主要问题 1.1.为什么进行数据挖掘 1.1.1 迈向信息时代 数据的爆炸式增长、广泛可用和巨大数量使得我们的时代成为真正的数据时代。急需功能强大和通用的工具,以便从这些海量的数据中发现有价值的信息,把这些数据转化成有组织的知识。这种需求导致了数据挖掘的诞生。 例如:Googel的Flu Trends(流感趋势)使用特殊的有哪些信誉好的足球投注网站项作为流感活动的指示器。它发现了有哪些信誉好的足球投注网站流感相关信息的人数与实际具体流感症状的人数之间的紧密联系。当与流感相关的所有有哪些信誉好的足球投注网站聚集在一起时,一个模式就出现了。 使用聚集的有哪些信誉好的足球投注网站数据,Googel的Flu Trends可以比传统的系统早两周对流感活动作出评估。这个例子表明,数据挖掘如何把大型数据集转化成知识,帮助我们应对当代的全球性挑战。 1.1. 2 数据挖掘是信息技术的进化 数据库和数据管理产业在一些关键功能的开发上不断发展(见图1.1):数据收集和数据库创建、数据管理(包括数据存储和检索、数据库事物处理)和高级数据分析(包括数据仓库和数据挖掘)。 数据收集和数据库创建机制是数据存储和检索以及查询和事物处理的有效机制开发的必备基础。 数据库和信息技术已经系统的从开始的文件处理演变成复杂的、功能强大的数据库系统。数据库的系统的研究和开发已经从开发层次和网状数据库发展到开发关系数据库系统、数据建模工具、索引和存取方法。此外,用户通过查询语言、用户界面、查询处理优化和事务管理,可以方便灵活的访问数据。 最近出现的一种数据存储是数据仓库,这是一种多个异构数据源在单个站点以统一的模式组织的存储,以支持管理决策。数据仓库技术包括数据清理、数据集成和联机分析处理(OLAP)。(OLAP是一种分析技术,具有汇总、合并和聚集以及从不同的角度观察数据的能力。) 由于决策者缺乏从海量的量数据中提取有价值的知识的工具,这就要求我们必须系统的开发数据挖掘的工具。 1.2 什么是数据挖掘 数据中的知识发现(KDD) 有以下步骤的迭代序列组成: (1)数据清理(消除噪声和删除不一致数据) (2)数据集成(多种数据源可以组合在一起) (3)数据选择(从数据库里提取与分析任务相关的数据) (4)数据变换(通过汇总或聚集?操作,把数据变换和统一成适合挖掘的形式) (5)数据挖掘(基本步骤,使用智能方法提取数据模式) (6)模式评估(根据某种兴趣度度量,识别代表知识的真正有趣的模式) (7)知识表达(使用可视化和知识表示技术,向有户提供挖掘的知识) 步骤 1~4是数据挖掘预处理的不同形式,为挖掘准备数据,数据挖掘步骤可以与用户界或知识库交互。有趣的模式提供给用户,或作为新的知识存放在知识库中。 该观点把数据挖掘看做知识发现的过程中的一个步骤,但是通常人们人们把他看做知识发现的整个过程,数据挖掘是从大量的数据中挖掘有趣的模式和知识的过程。 1.3 可以挖掘什么类型的数据 数据最基本的形式是数据库数据、数据仓库数据和事务数据。 1.3.1 数据库数据 数据库系统,也称数据库管理系统(DBMS),由一组内部相关的数据(数据库)和一组管理和存储数据的软件程序组成。软件程序提供如下的机制:定义数据库结构和数据存储,说明和管理并发、共享或分布式数据访问,面对系统瘫痪或未经授权的访问,确保存储的信息的一致性和安全性。 关系数据库是表的汇集,每个表被赋予一个唯一的名字。每个表都包含一组属性(列或字段),并且通过存放大量元组(行或记录)。每个元组代表一个对象,被唯一的关键字标识,并被一组属性值描述。通常关系数据库构建语义数据模型,如实体-联系(ER)数据模型。ER数据模型将数据库表示成一组实体和他们之间关系的联系。(例1.2 p30) 关系数据可以通过数据库查询访问。使用如SQL这样的关系查询语言,或借助于图形用户界面书写。关系查询语言可以包含聚集函数,如sum、avg、count、max和min。 当数据挖掘应用于关系数据库时,可以进一步探索趋势或数据模式。 1.3.2 数据仓库 数据仓库是一个从多个数据源收集的信息存数库,存放在一致的模式下,并且通常驻留在单个站点上。数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构造。 为了便于决策,数据仓库中数据围绕主题组织。

文档评论(0)

jiayou10 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8133070117000003

1亿VIP精品文档

相关文档