商业分析第5章 商业信息管理.ppt

  1. 1、本文档共45页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
商业分析第5章 商业信息管理

⑵粒度层次划分 数据粒度是指数据仓库的数据中保存数据的细化程度或综合程度的级别。细化程度越高,粒度级别就越小;相反,细化程度越低,粒度级别就越高。 数据仓库逻辑设计中要解决的一个重要问题是决定数据仓库的粒度划分层次,粒度层次划分适当与否直接影响到数据仓库中的数据量和所适合的查询类型。 通过估算数据行数和所需的直接存取存储设备数,来确定是采用单一粒度还是多重粒度,以及粒度划分的层次。 ⑶确定数据分割策略 在选择数据分割的标准时,一般要考虑以下几个方面因素:数据量、数据分析处理的实际情况、简单易行以及粒度划分策略等。 数据量的大小是决定是否进行数据分割和如何分割的主要因素。 数据分析处理的要求是选择数据分割标准的一个主要依据,因为数据分割是跟数据分析处理的对象紧密联系的。 ⑷关系模式定义 数据仓库的每个主题都是由多个表来实现的,这些表之间依靠主题的公共码键联系在一起,形成一个完整的主题。在概念模型设计时,已经确定了数据仓库的基本主题,并对每个主题的公共码键、基本内容等做了描述,接下来就要对选定的当前实施的主题进行模式划分,形成多个表,最终确定各个表的关系模式。 与概念模型设计中的E-R图相对,逻辑模型设计中需要将其转化为逻辑模型,主要包括星形模型、雪花型模型。 ⑴星形模型 用星形模型来表示逻辑模型,设计简单,容易被用户理解。星形模型主要包含两部分:指标实体和维度实体。指标实体是位于星形模型中间的实体,它是用户最关心的实体,为用户的商务活动提供定量的数据,指标实体用矩形表示。维度实体是位于星形模型角星上的实体,其作用是限制用户的查询结果,用菱形表示。 ⑵雪花型模型 雪花型模型是星形模型的进一步细化。与星形模型相比,雪花模型增加了一个详细类别实体,详细类别实体代表维度内的一个单独层次,用结束符号表示。 4.物理模型设计 物理模型设计主要是确定数据的存储结构,确定索引策略,确定数据存放位置,确定存储分配。 要实现数据仓库的物理模型,设计人员必须做到以下几点: 全面了解所选用的数据库管理系统,特别是存储结构和存取方法。 了解数据环境、数据的使用频度、使用方式、数据规模以及响应时间要求等,这些事对空间和时间效率进行平衡和优化的重要依据。 了解外部存储设备的特性,如分块原则、块大小的规定、设备的I/O特性等。根据这些要求,所做的工作包括以下四点: ⑴确定数据的物理存储结构 ⑵确定索引策略 ⑶确定存储分配 5.数据仓库的生成 这一环节主要是把数据放入数据仓库中,并进行接口的设计,一旦完成,就可以在其上建立数据仓库的应用。 ⑴设计接口 将操作型环境下的数据装载进数据仓库环境,需要在两个不同环境的记录系统之间建立一个接口。 在这一过程中,还要考虑到物理设计的一些因素和技术条件限制,根据这些内容,严格地制定规格说明。 ⑵数据装入 在这一步里所要进行的就是运行接口程序,将数据装入到数据仓库中。主要的工作是: 确定数据装入的次序。 清除无效或错误数据。 数据粒度管理。 数据刷新等。 数据仓库生成完后数据是稳定的,但并不是一成不变的,而是要根据需求在使用过程中不断地维护和更新。 6.数据字典和元数据 严格来说,这并不是建立数据仓库的一个步骤,而是建立数据仓库过程中所要涉及的特殊数据。 数据字典是数据库中各类数据描述的集合,通常包括数据项、数据结构、数据流、数据存储和处理过程五个部分,其中数据项是数据的最小组成单位,若干个数据项可以组成一个数据结构,数据字典通过对数据项和数据结构的定义来描述数据流、数据存储的逻辑内容。 ⑴数据项 数据项是不可再分的数据单位。对数据项的描述通常包括数据项名、数据项含义说明、数据类型、长度、取值范围、取值含义等。 ⑵数据结构 数据结构反映了数据之间的组合关系。一个数据结构可以由若干个数据项组成,也可以由若干个数据结构组成。数据结构的描述通常包括数据结构名、含义说明、数据项等。 ⑶数据流 数据流是数据结构在系统内传输的路径,对数据流的描述通常包括数据流名、说明、数据流来源、数据流去向、平均流量等。其中“数据流来源”用于说明该数据流来自哪个过程。“数据流去向”用于说明该数据流将到哪个过程去。“平均流量”是指单位时间(如每天)里的传输次数。 ⑷数据存储 数据存储是数据结构保存数据的地方,数据存储的描述通常包括数据存储名、说明、编号、输入的数据流、输出的数据流、数据量、存取频度、存取方式。 其中“存取频度”指每小时或每天或每周存取几次、每次存取多少数据等信息。“存取方式”包括是批处理还是联机处理、是检索还是更新、是顺序检索还是随机检索等。另外,“输入的数据流”要指出其来源,“输出的数据流”要指出其去向。“输出的数据流”要

文档评论(0)

bokegood + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档