- 1、本文档共3页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
复习内容
填空题(每空1分)
第1章
1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。
2、根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。
3、数据处理通常分成两大类:联机事务处理(OLTP)和联机分析处理。
4、多维分析是指对以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使用户能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。
5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。
6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储与管理和数据表现等。
7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立数据集市、依赖型数据集市和操作型数据存储和逻辑型数据集市和实时数据仓库。
8、操作型数据存储(ODS)实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。P15
9、“实时数据仓库”意味着源数据系统、决策支持服务和数据仓库之间以一个接近实时的速度交换数据和业务规则。
10、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。
11、数据挖掘的分析方法可以分为直接数据挖掘和间接数据挖掘两类。
第2章
1、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。
2、抽取、转换、加载过程的目的是为决策支持应用提供一个单一的、权威数据源。因此,我们要求ETL过程产生的数据(即调和数据层)是详细的、历史的、规范的、可理解的、即时的和质量可控制的。
3、数据抽取的两个常见类型是静态抽取和增量抽取。静态抽取用于最初填充数据仓库,增量抽取用于进行数据仓库的维护。
4、粒度是对数据仓库中数据的综合程度高低的一个衡量。粒度越小,细节程度越高,综合程度越低,回答查询的种类越多。
5、使用星型模式可以从一定程度上提高查询效率。因为星型模式中数据的组织已经经过预处理,主要数据都在庞大的事实表中。
6、维度表一般由主键、分类层次和描述属性组成。对于主键可以选择两种方式:一种是采用自然键,另一种是采用代理键。
7、雪花型模式是对星型模式维表的进一步层次化和规范化来消除冗余的数据。
8、数据仓库中存在不同综合级别的数据。一般把数据分成4个级别:早期细节级、当前细节级、轻度综合级和高度综合级。
第4章
1、关联规则的经典算法包括Apriori算法和FP-growth算法,其中FP-grownth算法的效率更高。
2. 支持度大于或等于最小支持度的项集称为频繁项集。
3. 强关联规则是指满足最小支持度要求和最小置信度要求的关联规则。
4. Apriori性质是频繁项集的所有非空子集都是频繁的,非频繁项集的所有超集都是非频繁的。
5. 关联规则的挖掘可以分为两步:找出所有频繁项集、由频繁项集产生强关联规则。
6. Apriori算法由连接和剪枝两个步骤组成。
第5章
1、分类的过程包括获取数据、预处理、分类器设计和分类决策。
2、分类器设计阶段包含三个过程:划分数据集、分类器构造和分类器测试。
3、分类问题中常用的评价准则有精确度、查全率和查准率和集合均值。
4. ID3算法采用信息增益作为选择分枝属性的依据,而C4.5算法采用信息增益比作为选择分枝属性的依据。
5. ID3算法只适应离散型属性,而C4.5既适应离散型属性,也适应于连续型属性。
6. 单一的分类方法主要包括:决策树、贝叶斯、人工神经网络、K-近邻、支持向量机和基于关联规则的分类等
7.属性选择度量是一种选择分裂准则、将给定类标号的训练元组最好的进行划分的方法。常用的属性选择度量信息增益、信息增益率、Gini指标。
第6章
1、聚类分析包括连续型、二值离散型、多值离散型和混合类型4种类型描述属性的相似度计算方法。
2、连续型属性的数据样本之间的距离有欧氏距离、曼哈顿距离和明考斯基距离。
3、划分聚类方法对数据集进行聚类时包含三个要点:选种某种距离作为数据样本减的相似性度量、选择评价聚类性能的准则函数和选择某个初始分类,之后用迭代的方法得到聚类结果,使得评价聚类的准则函数取得最优值。
4、层次聚类方法包括凝聚型和分解型两种层次聚类方法。
5. 聚类是一种无指导的学习:没有预定义的类编号。
6. 多值离散型属性是指取值个数大于2的离散型属性。
简答题(每题5分)
什么是数据仓库?数据仓库的特点主要有哪些?P2
数据仓库的组成?P2
什么是数据集市?P3
什么是数据挖掘?P4
简述OLTP和OLAP在用户、功能、数据库设计目标、存取规模等方面的
文档评论(0)