数据挖掘CHAPER1引言.doc

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘CHAPER1引言

第一章 引言 本书是一个导论,介绍什么是数据挖掘,什么是数据库中知识发现。书中的材料从数据库角度提供,特别强调发现隐藏在大型数据集中有趣数据模式的数据挖掘基本概念和技术。所讨论的实现方法主要面向可规模化的、有效的数据挖掘工具开发。本章,你将学习数据挖掘如何成为数据库技术自然进化的一部分,为什么数据挖掘是重要的,以及如何定义数据挖掘。你将学习数据挖掘系统的一般结构,并考察挖掘的数据种类,可以发现的数据类型,以及什么样的模式提供有用的知识。除学习数据挖掘系统的分类之外,你将看到建立未来的数据挖掘工具所面临的挑战性问题。 1.1 什么激发数据挖掘?为什么它是重要的? 需要是发明之母。 近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理、生产控制、市场分析、工程设计和科学探索等。 数据挖掘是信息技术自然进化的结果。进化过程的见证是数据库工业界开发以下功能(图1.1):数据收集和数据库创建,数据管理(包括数据存储和提取,数据库事务处理),以及数据分析与理解(涉及数据仓库和数据挖掘)。例如,数据收集和数据库创建机制的早期开发已成为稍后数据存储和提取、查询和事务处理有效机制开发的必备基础。随着提供查询和事务处理的大量数据库系统广泛付诸实践,数据分析和理解自然成为下一个目标。 自60年代以来,数据库和信息技术已经系统地从原始的文件处理进化到复杂的、功能强大的数据库系统。自70年代以来,数据库系统的研究和开发已经从层次和网状数据库发展到开发关系数据库系统(数据存放在关系表结构中;见1.3.1小节)、数据建模工具、索引和数据组织技术。此外,用户通过查询语言、用户界面、优化的查询处理和事务管理,可以方便、灵活地访问数据。联机事务处理(OLTP)将查询看作只读事务,对于关系技术的发展和广泛地将关系技术作为大量数据的有效存储、提取和管理的主要工具作出了重要贡献。 自80年代中期以来,数据库技术的特点是广泛接受关系技术,研究和开发新的、功能强大的数据库系统。这些使用了先进的数据模型,如扩充关系、面向对象、对象-关系和演绎模型。包括空间的、时间的、多媒体的、主动的和科学的数据库、知识库、办公信息库在内的面向应用的数据库系统百花齐放。涉及分布性、多样性和数据共享问题被广泛研究。异种数据库和基于Internet的全球信息系统,如WWW也已出现,并成为信息工业的生力军。 在过去的三十年中,计算机硬件稳定的、令人吃惊的进步导致了功能强大的计算机、数据收集设备和存储介质的大量供应。这些技术大大推动了数据库和信息产业的发展,使得大量数据库和信息存储用于事务管理、信息提取和数据分析。 现在,数据可以存放在不同类型的数据库中。最近出现的一种数据库结构是数据仓库(1.3.2小节)。这是一种多个异种数据源在单个站点以统一的模式组织的存储,以支持管理决策。数据仓库技术包括数据清理、数据集成和联机分析处理(OLAP)。OLAP是一种分析技术,具有汇总、合并和聚集功能,以及从不同的角度观察信息的能力。尽管OLAP工具支持多维分析和决策,对于深层次的分析,如数据分类、聚类和数据随时间变化的特征,仍然需要其它分析工具。 图1.1:数据库技术的进化 数据丰富,伴随着对强有力的数据分析工具的需求,被描述为“数据丰富,但信息贫乏”。快速增长的海量数据收集、存放在大型和大量数据库中,没有强有力的工具,理解它们已经远远超出了人的能力(图1.2)。结果,收集在大型数据库中的数据变成了“数据坟墓”——难得再访问的数据档案。这样,重要的决定常常不是基于数据库中信息丰富的数据,而是基于决策者的直观,因为决策者缺乏从海量数据中提取有价值知识的工具。此外,考虑当前的专家系统技术。通常,这种系统依赖用户或领域专家人工地将知识输入知识库。不幸的是,这一过程常常有偏差和错误,并且耗时、费用高。数据挖掘工具进行数据分析,可以发现重要的数据模式,对商务决策、知识库、科学和医学研究作出了巨大贡献。数据和信息之间的鸿沟要求系统地开发数据挖掘工具,将数据坟墓转换成知识“金块”。 图1.2 我们数据丰富,知识贫乏 1.2 什么是数据挖掘? 简单地说,数据挖掘是从大量数据中提取或“挖掘”知识。该术语实际上有点用词不当。注意,从矿石或砂子挖掘黄金称作黄金挖掘,而不是砂石挖掘。这样,数据挖掘应当更正确地命名为“从数据中挖掘知识”,不幸的是它有点长。“知识挖掘”是一个短术语,可能不能强调从大量数据中挖掘。毕竟,挖掘是一个很生动的术语,它抓住了从大量的、未加工的材料中发现少量金块这一过程的特点(图1.3)。这样,这种用词不当携带了“数据”和“挖掘”,成了流行的选择。还有

文档评论(0)

ipuflu + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档