数据仓库及数据挖掘必考点.pdfVIP

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

第一章

1、数据库房:是一个面向主题的、集成的、相对稳固的、反应历史变化的数据

会合。

构成:数据库房数据库,数据抽取工具,元数据,接见工具,数据市集,数

据库房管理,信息公布系统;

2、元数据:技术元数据

业务元数据。

3、数据办理:联机事务办理(OLTP)

联机剖析办理。(OLAP)

4、多维剖析采纳:切片、切块、钻取和旋转等各样剖析动作。

5、ROLAP:关系数据库

MOLAP:多维数据结构组织的OLAP实现。

HOLAP:混淆数据组织

6、数据库房开发过程:数据抽取、数据储存与管理、数据表现;

7、数据库房系统的系统结构依据应用需求的不一样:

两层架构,

独立型数据市集,

依靠型数据市集和操作型数据储存,

逻辑型数据市集和及时数据库房

8、操作型数据储存:是一个集成的、面向主题的、可更新的、目前值的、公司

级的、详尽的数据库,也叫营运数据储存。

9、“及时数据库房”:靠近及时的速度互换数据和业务规则。

10、一个典型的数据库房系统的构成?P12

数据源、数据储存与管理、OLAP服务器、前端工具与应用

第二章

1、调解数据:是储存在公司级数据库房和操作型数据储存中的数据。

2、抽取、变换、加载(ETL)目的:是为决议支持应用供给一个单调的、威望数

据源。

所以,我们要求ETL过程产生的数据(即调解数据层)是详尽的、历史的、规范

的、可理解的、即时的和质量可控制的。

3、数据抽取:从源文件和源数据库中获得有关数据用于填凑数据库房;

两个常有种类

静态抽取用于:最先填凑数据库房;

增量抽取用于:数据库房的保护;

4、数据冲洗:

使用模式辨别和其余技术

将原始数据变换和移到数据库房从前

升级数据质量的技术;

5、数据变换:把数据从源操作业务系统的格式变换到公司数据库房的数据格式;

6、粒度越小,细节程度越高,综合程度越低,回答查问的种类越多。

7、多维数据建模:以维度为中心、多个角度剖析有关数据的建模。

存在形式:星型、雪花型、事实星座模式

8、星型模式能够从必定程度上提升查问效率。由于星型模式中数据的组织已经

1/8

经过预办理,主要数据都在宏大的事实表中。

9、维度表一般由主键、分类层次和描绘属性构成。对于主键能够选择两种方式:

一种是采纳自然键,另一种是采纳代理键。

10、雪花型模式是对星型模式维表的进一步层次化和规范化来除去冗余的数据。

11、数据库房中存在不一样综合级其余数据。一般把数据分红4个级别:初期细节

级、目前细节级、轻度综合级和高度综合级。

12、简述数据库房ETL软件的主要功能和对产生数据的目标要求。P30

ETL软件的主要功能:

数据的抽取,数据的变换,数据的加载

对产生数据的目标要求:

详尽的、历史的、规范化的、可理解的、即时的、质量可控制的

13、多维数据模型中的基本观点:维,维类型,维属性,胸怀,粒度,切割P37维:

人们察看数据的特定角度,是考虑问题的一类属性,如时间维或产

品维

维类型:也称维分层。即同一维度还能够存在细节程度不一样的

各个类型属性(如时间维包含年、季度、月等)

维属性:是维的一个取值,是数据线在某维中地点的描绘。

粒度:DW中数据综合程度高低的一个权衡。粒度低,细节程度高,

回答查问的种类多

第四章P93

1、关系规则的经典算法包含Apriori算法和FP-growth算法,此中FP-growth算法

的效率更高。

第五章

1、分类:把数据样本映照到一个预先定义的类中的学习过程;

过程:包含获得数据、预办理

文档评论(0)

199****2849 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档