数据仓库与数据挖掘概述详解.ppt

  1. 1、本文档共64页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
微薄即人工的信息摘要 * 大量的非结构化或半结构化的文本数据中,包含了很多的无用和冗余的信息,同时也包含了很多可以用结构化形式表示的数据信息。比如公式、某个重要的数据、各种名称、概念等。从文本中提取这些信息,然后根据它们之间的关系,组织抽取信息的结构,可以从特定的角度提供对于文本数据的概览。例如,某个银行收到客户一份要求进行转帐的电子邮件。银行可以利用信息抽取程序,根据预先定义的交易信息抽取模板对该邮件进行自动处理,抽取邮件中的交易类型、交易日期、客户名、交易金额、货币种类以及利率等交易信息,然后转换为数据库记录,便于以后的处理。 * * 数据选取的目的是确定发现任务的操作对象,即目标数据(Target Data),是根据用户的需要从原始数据库中抽取得一组数据。数据预处理一般包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换(如把连续值数据转换为离散型的数据,以便于符号归纳,或是把离散型的转换为连续值型的,以便于神经网络算法挖掘)等。当数据挖掘的对象是数据仓库时,一般来说,数据预处理已经在生成数据仓库时完成了。数据变换的主要目的是消减数据维数或降维(Dimension Reduction)即从初始特征中找出真正有用的特征以减少数据挖掘时要考虑的特征或变量个数。 * 选择实现算法有两个考虑因素:一是不同的数据有不同的特点,因此需要用与之相关的算法来挖掘:二是用户或实际运行系统的要求,有的用户可能希望获取描述型的(Descriptive)、容易理解的知识(采用规则表示的挖掘方法显然要好于神经网路之类的方法),而有的用户只是希望获取预测准确度尽可能高的预测型((Predictive)知识,并不在意获取的知识是否易于理解。 * Fayyad知识发现过程模型是一个迭代的过程,在这个过程的每一个阶段,如果发现第K个阶段产生的结果和预想或者希望分析的内容有出入,则需要用户重复以前的工作,即或者重复第K-1个阶段,或者重复第1个阶段到第K—1个阶段的任意组合。 * 上图最外面的循环表示数据挖掘本身的循环特征。数据挖掘并非是一旦得到一个解决方案就结束了。在流程及解决方案中得到的教训可能引发新的、常常是更为集中的商业问题。后面的数据挖掘过程将从前几次的经验中获益。下面,分别来看一下生命周期的这六个阶段: * 例如,可以使用统计分析工具寻求最佳商业机会,增加市场份额和利润,利用全面质量管理程序,提高产品或服务的质量,使客户更加满意,通过对流水线产品制造的调整或企业业务过程的重整,增加利润。在所有的数据挖掘技术中,统计型数据挖掘工具是数据挖掘技术中最成熟的一种,己经在数据挖掘中得到广泛的应用。 * 小结 本章主要介绍数据仓库与数据挖掘相关概念、数据仓库体系结构、数据挖掘过程模型以及数据挖掘技术等知识。 数据仓库是一个面向主题的、集成的、相对稳定、反映历史变化的数据集合,用于辅助决策。数据仓库有4种体系结构:虚拟的数据仓库体系结构、单独的数据仓库体系结构、单独的数据集市体系结构和分布式数据仓库结构。数据仓库应用系统由数据源、数据仓库数据库、数据集市、数据抽取工具、元数据以及前端访问展示工具组成。数据仓库中的数据有不同的粒度。 数据挖掘是一门交叉性学科,它涉及人工智能、数据库技术、机器学习、模式识别、信息学、信息检索、统计学等多个领域。数据挖掘是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的过程。从整体上看数据挖掘技术,可以将其分为统计分析类、知识发现类和其他类型的数据挖掘技术三大类。数据挖掘对象可以是存储的任何类型的信息,如关系数据库、文本数据库、多媒体数据库等等。 下课了。。。 休息一会儿。。。 随着人们对信息技术利用能力的增强,对数据的应用也从低级的查询操作,提升到为企业经营管理提供决策支持。 传统数据库系统精干企业的日常事务处理工作,而难于实现对数据分析处理要求。因此,操作型处理和分析型处理的分离成为必然 。 * 数据仓库技术从本质上讲,是一种信息集成技术,它从多个信息源中获取原始数据,经过加工处理后,存储在数据仓库的内部数据库中。 (它还是用了数据库,只是与原来的业务处理数据库进行分离) 为了使数据仓库用户能有效地使用数据仓库中的信息,进行深层次的综合分析和决策,数据仓库系统要向用户提供一整套数据访问和分析工具。通过所提供的访问工具,为数据仓库的用户提供统一、协调和集成的信息环境,支持企业全局的决策过程和对企业经营管理的深入综合分析。 * 比如,在学生的学籍管理成绩系统中,数据常被组织成“学生”、“课程”、“学生成绩”等关系模式,描述了各个学生、各门课程以及学生学习各门课程的详细信息。而在数据仓库中,我们则要对学生、课程、学生成绩进行综合分析

文档评论(0)

w447750 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档