- 1、本文档共46页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
BI基础概培训
了解数据仓库 数据仓库 终端用户 数据集市 OLAP 数据仓库 维度表 维度是分析中描述性的分类,通过它可以将度量值分离出来进行分析。 主键 主键 唯一性 关联事实表与维度表 两个选择 应用主键 (app suffix) :原业务系统的主键 代理键 (key suffix) 数据仓库系统产生的数字键 product_id_app product_dim_key 在维度中分不同的层次 定义层次结构的好处 允许用户从不同的层次展示数据 在分析中采用不同的路径进行钻取 举例:日期 分为,年-半年-季度-月-日期 星型模型 Employee_Dim EmployeeKey EmployeeID ... Time_Dim TimeKey TheDate ... Product_Dim ProductKey ProductID ... Customer_Dim CustomerKey CustomerID ... Shipper_Dim ShipperKey ShipperID ... Sales_Fact TimeKey EmployeeKey ProductKey CustomerKey ShipperKey Sales Amount Unit Sales ... 雪花模型 在多维表中定义层次 节省存储空间 存取效率较低 事实表的组成 维度表 customer_dim 201 ALFI Alfreds product_dim 25 123 Chai 事实表 customer_key product_key time_key quantity_sales amount_sales 外键 201 25 134 400 10,789 事实表中的粒度就是维度表与事实表中相关联的最小级别的数据 134 1/1/2000 time_dim 度量值 事实表 库存数, 入库数,出库数 产品的销售数量, 成本,销售额,订单数 度量值:业务数据 外键 time_dim_key product_dim_key customer_dim_key product_key customer_key order_date_key 外键约束 与维度表中的主键的联系 使事实表的数据与维度表发生关联 外键 约束 外键约束 数据仓库和多维立方 终端用户 数据存取 数据集市 OLAP 数据仓库 多维数据集的组成 度量值 用户分析的业务数据 维度 度量值的事实记录的特性 来源于维度表 Cubes 综合维度和度量值的数据模型 OLAP 数据的逻辑存储介质 维度表-OLAP 维度 Year Quarter Month 1999 Q1 Jan 1999 Q1 Feb … … … 时间维 Month Quarter Year 关系表 OLAP 立方 重庆 杭州 北京 上海 地区 产品维 Q4 Q3 Q2 时间维 苹果 樱桃 葡萄 Q1 西瓜 地区维 Products Dimension Q4 Q3 Q2 时间维 苹果 樱桃 葡萄 Q1 西瓜 查询立方 重庆 杭州 北京 上海 1000 销售量 设计数据仓库 设计数据仓库的步骤和注意点 步骤: 1.确定主题 2.确定分析模型 3.建立数据仓库 4.建立ETL过程 5.建立数据立方 注意点: 1.尽量采用星型模型 2.事实表里的代理键在维度表里必须存在 * * 信息孤岛 * 联机事务处理OLTP(On-Line Transaction Processing)是传统的关系型数据库的应用,主要是基本的、日常的事务处理。在日常生活中,我们能够接触到很多基于联机事务处理的应用系统,比如手机交费、银行交易、火车站售票、医院的收费系统等等。这些系统通常自带一些统计查询的功能,往往有些用户认为,这些统计查询功能就足以满足需求了,但是在长期应用过程中,会发现这种系统在统计分析方面受到很多局限,这就是为什么国外在实际应用中都将统计分析与业务系统分开的原因。因而,在国外OLAP与OLTP系统是相提并论、相伴而生的。 OLTP系统在统计分析方面的局限主要是由于它对数据实时性操作的特点造成的。由于这类系统要频繁的访问数据库,对数据库进行读写操作,如果数据库的历史数据非常庞大,就会影响到当前系统的运行速度。因而,这类系统的当前操作数据库只能存储一段时期的数据,系统自带的查询功能也只能操作当前系统数据库中有限时间的数据。比如,我们日常进行手机话费查询就只能够查询三个月左右的记录。此外,OLTP和OLAP系统还存在以下的区别: * 在不同的环境下有不同的应用 * The grain of the sales_fact ta
文档评论(0)