- 1、本文档共4页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2011级硕士研究生试题
PAGE
PAGE 1
2011级研究生“数据仓库和数据挖掘”课程期末考试试题
1、(25分)有一个学生成绩管理系统,其中含有学生的学号、姓名、性别、籍贯、分数等信息,现在要构建一个数据仓库,其主题是学生成绩,回答以下问题:
(1)给出该数据仓库中事实表的结构。
(2)给出该数据仓库中所有维表的结构。
(3)画出该数据仓库的模型,问属于哪种模型。
(1)学生成绩事实表
学生
课程
成绩
(2)该数据仓库包含学生维表和课程维表
学号
姓名
性别
籍贯
课程名
课程编号
授课教师
(3)星型模型
成绩事实表
姓名
课程
成绩
学生维表 课程维表
学号
姓名
性别
籍贯
课程名
课程编号
授课教师
度量
度量
2、(15分)简述OLAP的基本操作。
OLAP的基本操作主要包括对多维数据进行切片、切块、旋转、钻取等分析操作。这些分析操作使得用户可以从多个角度、多个侧面观察数据库中的数据,从而更加深入地了解包含在数据中的信息。
??? 1.切片(Slicing)
??? 切片操作就是在某个或某些维上选定一个属性成员,而在其他维上取一定区间的属性成员,或全部属性成员来观察数据的一种分析方式。
??? 2.切块(Dicing)
??? 切块就是在各个维上去一定区间的成员属性,或全部成员属性来观察数据的一种分析方式,可以认为切片是切块的特例,切块是切片的扩展。
????3.钻取(Drilling)
??? 钻取包含向下钻(Drill-down)和向上钻(Drill-up)/上卷(Roll-up)操作。下钻指从概括性的数据出发获得相应的更详细的数据,上钻则相反。钻取的深度与维度所划分的层次相对应。
??? 4.旋转(Pivoting)
??? 旋转即改变一个报告或页面显示的维方向。旋转可能包含交换行和列,或是把某一个行维移到列为中去,或包页面显示中的一个维和页面外的维进行交换。
3、(20分)有一个事务集合如表1所示,设最小支持计数为3,采用Apriori算法求出所有的频繁集。
表1 一个事务集合T
事务
项
1
I1,I2,I4,I5
2
I2,I3,I4
3
I1,I2,I4,I5
4
I1,I3,I4,I5
5
I2,I3,I4,I5
6
I2,I4,I5
7
I3,I4
8
I1,I2,I3
9
I1,I4,I5
10
I3,I4
1)由I={ I1,I2,I3,I4,I5}的所有项目直接产生1-候选集C1,计算其支持计数。去除支持计数小于3的项集,形成1-频繁集L1,如表1所示。
表1 1-候选集C1和1-频繁集L1
项集C1
支持计数
项集L1
支持计数
{ I1}
5
{ I1}
5
{ I2}
6
{ I2}
6
{ I3}
6
{ I3}
6
{ I4}
9
{ I4}
9
{ I5}
6
{ I5}
6
2)为发现频繁2-项集L2,首先利用L1中的各项目组合连接,来产生2-候选集C2;然后扫描记录集,以获得C2中各项集的支持度。去除支持计数小于3的项集,形成2-频繁集L2,如下表2所示。
表2 2-候选集C2和2-频繁集L2
项集C2
支持计数
项集L2
支持计数
{ I1,I2}
3
{ I1,I2}
3
{ I1,I3}
2
{ I1,I4}
4
{ I1,I4}
4
{ I1,I5}
4
{ I1,I5}
4
{ I2,I3}
3
{ I2,I3}
3
{ I2,I4}
5
{ I2,I4}
5
{ I2,I5}
4
{ I2,I5}
4
{ I3,I4}
5
{ I3,I4}
5
{ I4,I5}
6
{ I3,I5}
2
{ I4,I5}
6
3)为发现频繁3-项集L3,首先利用L2中的各项目组合连接,来产生3-候选集C3。连接时只能将只差最后一个项目的不同项集进行连接。连接后还要根据Apriori的性质:频繁集的子集一定是频繁的来修剪。最后扫描记录集,以获得C3中各项集的支持计数,去除支持计数小于3的项集,形成3-频繁集L3,如下表3所示。
表3 3-候选集C3和3-频繁集L3
项集C3
支持计数
项集L3
支持计数
{ I1,I2,I4}
2
{ I1,I4,I5}
4
{ I1,I2,I5}
2
{ I2,I4,I5}
4
{ I1,I4,I5}
4
{ I2,I3,I4}
2
{ I2,I4,I5}
4
4)为发现频繁4-项集L4,重复上述过程,则C4为空,所有频繁集都被找到,算法到此结束。
文档评论(0)