建设数据仓库的一些经验教训讲述.ppt

  1. 1、本文档共24页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
建设数据仓库的一些经验教训讲述

数据仓库与数据挖掘 数据仓库的星型结构 数据集市(DATA MART) 数据集市是一个针对某个主题的经过预统计处理的部门级分析数据库。目前,一般理解为企业级数据仓库里的主题数据库。将数据集市理解为一个部门级的数据仓库也未尝不可。 当一个企业里存在着多个相互独立、数据定义不统一的数据集市时,就会导致信息的整合问题。因此,将原有的数据集市进行整合并归入数据仓库统一管理是一个必然的趋势。 一个数据集市可以由特定业务领域内多个相关的“星”组成。比如,营销集市可以由“订单星”、“活动星”、“销售机会星”、“售后服务星”、“报价星”和“客户反馈星”等共同组成为一个营销分析数据集市,为营销人员提供查询分析的数据源。 数据获取、精简和转换工具(ETL) 由于数据仓库有自己的独立数据库系统,字段长度、字段类型、索引定义等与交易数据库有很大的不同,数据在导入之前,各种筛选、转换工作是必然的。因此,必须具备有效的导入工具。 数据仓库或数据库提供商都有专门设计的数据导入工具,这些工具提供阶段性的数据预处理工作,支持各种流行的数据源。 这些工具的工作效率、易用程度及纠错能力是衡量数据仓库系统的重要性能指标之一。 数据仓库的管理平台 由于数据仓库存有大量的历史数据,它的数据容量比交易数据库要大得多,并且为了获得及时的分析数据,数据仓库必须定期从交易数据库中导入必威体育精装版数据(如每天)。数据仓库的管理平台是系统管理员的日常维护和管理环境,其主要管理任务包括批处理作业管理,数据安全管理,数据冲突解决,数据质量核查,管理数据仓库元数据的更新,数据删除与复制,备份与恢复等,从而为保证数据仓库正常运转提供了基本的管理环境。 数据仓库的数据挖掘工具 在线分析处理是对历史数据的统计,它只提供“事实数据”,对今后的预测则完全交由用户靠自己的“人脑”判断。在线分析处理的结果充其量只是“人脑处理系统”的一个输入。 数据挖掘是从数据仓库中挖掘出有价值的带有规律性的行为模式,并对未来趋势作出预测的一个数据分析过程,因此,它更接近于人工智能范畴。它的目的是为了建立一个符合“历史经验”的预测模型,既要帮助用户回答诸如“明年那种预算可以获得最佳回报”,“哪一种类型的客户将是企业的主要收入来源”等决策。数据挖掘更注重于发现数据仓库中所蕴藏的,目前不为人知的某种“规律”或模式,因而,是“挖掘”,是“发现”,是“探索”,而不是“浏览”或“观望”眼前的事实结果。 建设数据仓库的一些经验教训 建设数据仓库的目的 要利用数据仓库解决什么问题? 数据仓库要达到什么目的?谁来用,如何评价其成功与否? 建立数据仓库应用时,应该以问题为导向而不能以方法为导向,要根据问题寻找产品和工具。 建设数据仓库的一些经验教训 数据仓库不是那种买来就可以使用的软件产品,事实上,数据仓库更像一个过程,一个用户逐步认识自己、提高自己的过程。 数据仓库不仅要反映出企业的现状,而且还要依靠人做出最终的决策。 实施数据挖掘的基本步骤 确定分析和预测目标 明确业务目标—通过数据挖掘解决什么样的问题?达到什么目的? 成功准则—把要解决的问题转化为可以测量的目标。 确定项目期—明确的计划。 了解数据 数据源。 分析数据的可用性与适用性。 随机地抽取一些数据检验其质量,确认数据的可信度。 实施数据挖掘的基本步骤 数据准备 对已确定的基本数据进行必要的转换、清理、填补以及合并工作。 数据准备工作比较繁琐,但非常重要,因为,如果数据里噪音太多,就会影响建立模型的准确度,数据越完整,越准确,在此基础上发掘的数据规律(pattern)就具有更高的可信度,从而更好地实现数据挖掘的目标,否则,从“垃圾”数据里再怎么挖掘也只能是垃圾,这是毫无疑问的。 实施数据挖掘的基本步骤 数据相关性前期探索 有些数据挖掘工具在定性和数据分类方面使用方便,可以用作为更高一级预测分析的“探索”工具。比如,先用决策树或聚类方法帮助找出数据的总体趋势以及预测变量相关性之后,再用神经网络或规则导引方法有针对性的建模,一来可以细化数据,提高性能,二来在某种程度上也可以帮助消除噪音;另一方面也可以作为不同方法比较之用。 实施数据挖掘的基本步骤 模型构造 模型构造阶段是数据挖掘技术应用的关键阶段,有以下几个步骤: 选择使用的挖掘技术,因为每一种挖掘技术有其适用性。 建立培训数据(建立模型用)和测试数据(检验模型用) 对基础数据必须分为两部分,一个是供模型建立的数据,另一个供模型建立后检验其准确率的数据。两者的使用目的是不一样的。 利用培训数据采用相应算法建立模型。 模型解释----对模型进行分析和解释,业务专家和数据库专家同时参与,以找出模型中的实际意义。 实施数据挖掘的基本步骤 模型评估和检验 建立的模型用测试数据进行

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档