合肥学院数据仓库与数据挖掘三份试卷.pdfVIP

合肥学院数据仓库与数据挖掘三份试卷.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

一、填空题

1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。

2、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个

信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。

3、数据处理通常分成两大类:联机事务处理和联机分析处理。

4、多维分析是指以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋

转等各种分析动作,以求剖析数据,使拥护能从不同角度、不同侧面观察数据仓库中的数据,

从而深入理解多维数据集中的信息。

5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP

实现。

6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储管理和数据表现等。

7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独

立型数据集合、依赖型数据集市和操作型数据存储、逻辑型数据集市和实时数据仓库。

8、操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥

发”的)、企业级的、详细的数据库,也叫运营数据存储。

9、“实时数据仓库”意味着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速

度交换数据和业务规则。

10、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、

以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。

11、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。

12、抽取、转换、加载过程的目的是为决策支持应用提供一个单一的、权威数据源。因此,

我们要求ETL过程产生的数据(即调和数据层)是详细的、历史的、规范的、可理解的、

即时的和质量可控制的。

13、数据抽取的两个常见类型是静态抽取和增量抽取。静态抽取用于最初填充数据仓库,增

量抽取用于进行数据仓库的维护。

14、粒度是对数据仓库中数据的综合程度高低的一个衡量。粒度越小,细节程度越高,综合

程度越低,回答查询的种类越多。

15、使用星型模式可以从一定程度上提高查询效率。因为星型模式中数据的组织已经经过预

处理,主要数据都在庞大的事实表中。

16、维度表一般又主键、分类层次和描述属性组成。对于主键可以选择两种方式:一种是采

用自然键,另一种是采用代理键。

17、雪花型模式是对星型模式维表的进一步层次化和规范化来消除冗余的数据。

18、数据仓库中存在不同综合级别的数据。一般把数据分成4个级别:早期细节级、当前细

节级、轻度综合级和高度综合级。

19、SQLServerSSAS提供了所有业务数据的同意整合试图,可以作为传统报表、在线分析

处理、关键性能指示器记分卡和数据挖掘的基础。

20、数据仓库的概念模型通常采用信息包图法来进行设计,要求将其5个组成部分(包括名

称、维度、类别、层次和度量)全面地描述出来。

21、数据仓库的逻辑模型通常采用星型图法来进行设计,要求将星型的各类逻辑实体完整地

描述出来。

22、按照事实表中度量的可加性情况,可以把事实表对应的事实分为4种类型:事务事实、

快照事实、线性项目事实和事件事实。

23、确定了数据仓库的粒度模型以后,为提高数据仓库的使用性能,还需要根据拥护需求设

计聚合。

24、在项目实施时,根据事实表的特点和拥护的查询需求,可以选用时间、业务类型、区域

和下属组织等多种数据分割类型。

25、当维表中的主键在事实表中没有与外键关联时,这样的维称为退化维。它于事实表并无

关系,但有时在查询限制条件(如订单号码、出货单编号等)中需要用到。

26、维度可以根据其变化快慢分为无变化维度、缓慢变化维度和剧烈变化维度三类。

27、数据仓库的数据量通常较大,且数据一般很少更新,可以通过设计和优化索引结构来提

高数据存取性能。

28、数据仓库数据库常见的存储优化方法包括表的归并与簇文件、反向规范化引入冗余、表

的物理分割(分区)。

29、关联规则的经典算法包括Apriori算法和FP-growth算法,其中FP-grownth算法的效率更

高。

30、如果L2={{a,b},{a,c},{a,d},{b,c},{b,d}},则连接产生的C3={{a,b,c},{a,b,d},{a,c,d},{b,c,d}}

再经过修剪,C3={{a,b,c},{a,b,d}}

31、分类的过程包括获取数据、预处理、分类器设计和分类决策。

32、分类器设计阶段包含三个过程:划分数据集、分类器构造和分类器测试。

33、分类问题中常用的评价准则有精确度、查全率和查准率和几

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档