第3章-设计数据仓库-3.ppt

  1. 1、本文档共40页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * * * * * * * * * * * * * * 元数据工作的一个例子 13 社会保险号 雇员 社会保险号(FK) 技能编码(FK) 雇员技能 技能编码 技能 12 IO对象ID 雇员 雇员技能 技能 输入输出对象 关系ID IO对象ID 12 雇员 12 雇员技能 13 雇员技能 13 技能 关系成员 关系ID 12 13 关系键 关系 关系ID IO对象ID 域ID 12 雇员 社会保险号 12 雇员技能 社会保险号 13 技能 技能编码 13 雇员技能 技能编码 元数据的作用 描述什么在数据仓库中。 制作系统设计文档。 测量数据品质。 监视数据同步操作。 规定什么样的数据进入和离开数据仓库。 根据事件时间表安排数据抽取和监视导入(import)工作。 绘制由源系统数据转换为数据仓库数据的映射图。 选择不同级别的数据综合算法。 元数据的作用 元数据在操作型环境与数据仓库中扮演着不同的角色: 在操作型环境中,元数据几乎是事后补记,并归入到与文档相同的重要性级别。而数据仓库环境中元数据重要性提高。 二种环境中元数据服务于不同的群体。操作型服务于IT人员,数据仓库服务于DSS分析人员 元数据涉及到对二种环境中数据的映射管理 数据仓库环境中的元数据需要随时间变化追踪数据结构的变化 元数据的收集与维护 1.元数据的收集 (1)来源于源系统 元数据 操作型系统数据模型 系统文档的数据元素定义 COBOL写字板及控制块规范 物理文件布局及字段定义 程序规范 外部数据来源的文件布局和字段定义 其他来源(如:电子表格) 源系统中元数据收集 (2) 来源于抽取的数据 元数据 源平台的数据和连接 所选择的数据源的布局和定义 每个平台上初始抽取文件的合并准则 用于抽取的字段定义 标准化字段类型与长度的规则 数据抽取计划 增量修改的抽取方法 数据抽取任务流 从抽取的数据种收集元数据 (3)来源于转换和清理的数据 元数据 抽取文件到数据准备文件的映射规范 单独文件的转换规则 字段默认 有效性检查的商业规则 分类及重排序安排 从数据抽取到数据准备的审查跟踪 从转换和清洗的数据中收集元数据 (4)来源于装载的数据 元数据 从数据准备文件到装载映像的映射规则 数据准备到装载映像的审查跟踪 为每个文件分配键时的分配规则 完全刷新的计划 增量装载的计划 数据装载任务流 从数据装载中收集元数据 (5)来源于存储的数据 元数据 集中式数据仓库和独立数据集市数据模型 统一化数据集市数据模型 多个表组成的主题区域 物理文件 表和列定义 有效性检查的商业规则 从数据装载中收集元数据 (6)来源于信息传递 元数据 预定义查询和报表的列表 特殊OLAP数据库的数据模型 查询和报表工具列表 为OLAP检索数据的计划 从数据装载中收集元数据 2.元数据的维护 (1)元数据的存储 (2)元数据的管理 (3)元数据的维护 * * * * * * * * * * * 如省\区\县的地图,由应用程序控制更灵活 * * 第3章 设计数据仓库(3) 物理设计 物理设计中需要考虑的各种因素的核心是物理I/O效率。 数据仓库设计者的主要工作是组织好物理数据,以保证执行一次物理I/O能返回最大数量的记录 物理数据模型 物理数据模型由中间层数据模型创建而来 物理模型通过扩展中间层数据模型,使模型中包含关键字和物理特性 设计出物理数据模型的关系表后,主要的就是要进行性能优化 第一步:确定数据的粒度和分区 数据分组 合并表 选择冗余 进一步分离数据 导出数据 预格式化、预分配 人工关系 预连接表 粒度设计 预测不同体系结构的粒度需求 数据仓库中的数据需要处于最低的公共细节水平 数据仓库中的数据粒度必须是任何数据集市所需要数据中的最小粒度。 粒度设计与数据量估计 将来的数据行数 所需的DASD(直接存取存储设备)数 估计数据量 计算数据仓库占用空间的方法: 第一步:确定数据仓库中将要创建的所有表 第二步:估计一年内可能的最少行数与最多行数 第三步:估计五年内可能的最少行数与最多行数 第四步:估计索引数据占用的空间 第五步:计算空间 一年总的最大空间=最大行大小*一年内最大行数 一年总的最小空间=最小行大小*一年内最小行数 另外,考虑备份和恢复所需要的空间 估算结果的准确程度只需要达到数量级 数据量与粒度设计 应该考虑五年后如下因素: 有更多的技术管理大量数据 硬件费用下降 功能更强大的软件工具 最终用户更加专业化 粒度与存储器 历史数据与细节数据造成了数据的显著增长 根据数据使用频率,可将数据分为二类: 经常使用的数

文档评论(0)

1112111 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档