网站大量收购闲置独家精品文档,联系QQ:2885784924

[企业管理]2数据仓库原理.ppt

  1. 1、本文档共51页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[企业管理]2数据仓库原理

* 1.确认数据源 列出对事实表的每一个数据项和事实 列出每一个维度属性 对于每个目标数据项,找出源数据项 一个数据元素有多个来源,选择最好的来源 确认一个目标字段的多个源字段,建立合并规则 确认一个目标字段的多个源字段,建立分离规则 确定默认值 检查缺失值的源数据 * 2.数据抽取技术 当前值。 源系统中存储的数据都代表了当前时刻的值。当商业交易时,这些数据是会发生变化的。 周期性的状态。 这类数据存储的是每次发生变化时的状态。例如,对于每一保险索赔,都经过索赔开始、确认、评估和解决等步骤,都要考虑有时间说明。 * 2.3.2 数据转换 1.数据转换的基本功能 2.数据转换类型 3.数据整合和合并 4.如何实施转换 * 1.数据转换的基本功能 选择:从源系统中选择整个记录或者部分记录。 分离/合并:对源系统中的数据进行分离操作或者合并操作。 转化:对源系统进行标准化和可理解化。 汇总:将最低粒度数据进行汇总。 清晰:对单个字段数据进行重新分配和简化 。 * 2.数据转换类型 (1)格式修正 (2)字段的解码 (3)计算值和导出值 (4)单个字段的分离 (5)信息的合并 (6)特征集合转化 (7)度量单位的转化 (8)关键字重新构造 (9)汇总 (10)日期/时间转化 * 3.数据整合和合并 数据整合和合并是将相关的源数据组合 成一致的数据结构,装入数据仓库。 (1)实体识别问题 数据来源于多个不同的客户系统,对相同客户可能分别有不同的键码,将它们组合成一条单独的记录。 (2)多数据源相同属性不同值的问题 不同系统中得到的值存在一些差别 ,需要给出合理的值。 * 4.如何实施转换 自己编写程序实现数据转换 使用转换工具 * 2.3.3 数据装载 (1)数据装载方式 (2)数据装载类型 * 1.数据装载方式 基本装载 按照装载的目标表,将转换过的数据输入到目标表中去。 追加 如果目标表中已经存在数据,追加过程在保存已有数据的基础上增加输入数据。 破坏性合并 用新输入数据更新目标记录数据。 建设性合并 保留已有的记录,增加输入的记录,并标记为旧记录的替代。 * 2.数据装载类型 最初装载 这是第一次对整个数据仓库进行装载。 增量装载 由于源系统的变化,数据仓库需要装载变化的数据。 完全刷新 这种类型的数据装载用于周期性重写数据仓库。 * 2.3.4 ETL工具 数据转换引擎 代码生成器 通过复制捕获数据 * 2.4 元数据 2.4.1 元数据的重要性 2.4.2 关于数据源的元数据 2.4.3 关于数据模型的元数据 2.4.4 关于数据仓库映射的元数据 2.4.5 关于数据仓库使用的元数据 * 2.4.1 元数据的重要性 最基本的元数据相当于数据库系统中的数据字典。 元数据定义了数据仓库有什么,指明了数据仓库中数据的内容和位置,刻画了数据的抽取和转换规则,存储了与数据仓库主题有关的各种商业信息,而且整个数据仓库的运行都是基于元数据的。 * 这类元数据是对不同平台上的数据源的物理结构和含义的描述。具体为: (1)数据源中所有物理数据结构,包括所有的数据项及数据类型。 (2)所有数据项的业务定义。 (3)每个数据项更新的频率,以及由谁或那个过程更新的说明。 (4)每个数据项的有效值。 2.4.2关于数据源的元数据 * 这组元数据描述了数据仓库中有什么数据以及数据之间的关系,它们是用户使用管理数据仓库的基础。 这种的元数据可以支持用户从数据仓库中获取数据。 2.4.3关于数据模型的元数据 * 例如,雇员与技能之间的关系如图2.13表示。 * 元数据描述如下: * 这类元数据是数据源与数据仓库数据间的映射。 当数据源中的一个数据项与数据仓库建立了映射关系,就应该记下这些数据项发生的任何变换或变动。即用元数据反映数据仓库中的数据项是从哪个特定的数据源填充的,经过那些转换,变换和加载过程。 2.4.4关于数据仓库映射的元数据 * 1.抽取工作之间的复杂关系 一个数据的抽取要经过许多步骤。如图所示: * 2.源数据与目标数据之间的映射 (1)抽取工作 (2)抽取工作步骤 (3)抽取表映射 (4)抽取属性映射 (5)记录筛选规则 * 这类元数据是数据仓库中信息的使用情况描述。 数据仓库的用户最关心的是两类元数据: (1)元数据告诉数据仓库中有什么数据,它们从哪里来。即如何按主题查看数据仓库的内容。 (2)元数据提供已有的可重复利用的查询语言信息。如果某个查询能够满足他们的需求,或者与他们的愿望相似,他们就可以再次使用那些查询而不必从头开始

文档评论(0)

qiwqpu54 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档