2011级硕士研究生试题.docVIP

下载本文档

152
0
约2.53千字
约 4页
2019-07-25 发布于河北
举报
版权申诉

2011级硕士研究生试题.doc

1、本文档共4页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

2011级硕士研究生试题

PAGE PAGE 1 2011级研究生“数据仓库和数据挖掘”课程期末考试试题 1、（25分）有一个学生成绩管理系统，其中含有学生的学号、姓名、性别、籍贯、分数等信息，现在要构建一个数据仓库，其主题是学生成绩，回答以下问题：（1）给出该数据仓库中事实表的结构。（2）给出该数据仓库中所有维表的结构。（3）画出该数据仓库的模型，问属于哪种模型。（1）学生成绩事实表学生课程成绩（2）该数据仓库包含学生维表和课程维表学号姓名性别籍贯课程名课程编号授课教师（3）星型模型成绩事实表姓名课程成绩学生维表课程维表学号姓名性别籍贯课程名课程编号授课教师度量度量 2、（15分）简述OLAP的基本操作。 OLAP的基本操作主要包括对多维数据进行切片、切块、旋转、钻取等分析操作。这些分析操作使得用户可以从多个角度、多个侧面观察数据库中的数据，从而更加深入地了解包含在数据中的信息。 ??? 1．切片(Slicing) ??? 切片操作就是在某个或某些维上选定一个属性成员，而在其他维上取一定区间的属性成员，或全部属性成员来观察数据的一种分析方式。 ??? 2．切块(Dicing) ??? 切块就是在各个维上去一定区间的成员属性，或全部成员属性来观察数据的一种分析方式，可以认为切片是切块的特例，切块是切片的扩展。 ????3．钻取(Drilling) ??? 钻取包含向下钻(Drill-down)和向上钻(Drill-up)／上卷(Roll-up)操作。下钻指从概括性的数据出发获得相应的更详细的数据，上钻则相反。钻取的深度与维度所划分的层次相对应。 ??? 4．旋转(Pivoting) ??? 旋转即改变一个报告或页面显示的维方向。旋转可能包含交换行和列，或是把某一个行维移到列为中去，或包页面显示中的一个维和页面外的维进行交换。 3、（20分）有一个事务集合如表1所示，设最小支持计数为3，采用Apriori算法求出所有的频繁集。表1 一个事务集合T 事务项 1 I1，I2，I4，I5 2 I2，I3，I4 3 I1，I2，I4，I5 4 I1，I3，I4，I5 5 I2，I3，I4，I5 6 I2，I4，I5 7 I3，I4 8 I1，I2，I3 9 I1，I4，I5 10 I3，I4 1）由I={ I1，I2，I3，I4，I5}的所有项目直接产生1-候选集C1，计算其支持计数。去除支持计数小于3的项集，形成1-频繁集L1，如表1所示。表1 1-候选集C1和1-频繁集L1 项集C1 支持计数项集L1 支持计数 { I1} 5 { I1} 5 { I2} 6 { I2} 6 { I3} 6 { I3} 6 { I4} 9 { I4} 9 { I5} 6 { I5} 6 2)为发现频繁2-项集L2，首先利用L1中的各项目组合连接，来产生2-候选集C2；然后扫描记录集，以获得C2中各项集的支持度。去除支持计数小于3的项集，形成2-频繁集L2，如下表2所示。表2 2-候选集C2和2-频繁集L2 项集C2 支持计数项集L2 支持计数 { I1，I2} 3 { I1，I2} 3 { I1，I3} 2 { I1，I4} 4 { I1，I4} 4 { I1，I5} 4 { I1，I5} 4 { I2，I3} 3 { I2，I3} 3 { I2，I4} 5 { I2，I4} 5 { I2，I5} 4 { I2，I5} 4 { I3，I4} 5 { I3，I4} 5 { I4，I5} 6 { I3，I5} 2 { I4，I5} 6 3）为发现频繁3-项集L3，首先利用L2中的各项目组合连接，来产生3-候选集C3。连接时只能将只差最后一个项目的不同项集进行连接。连接后还要根据Apriori的性质：频繁集的子集一定是频繁的来修剪。最后扫描记录集，以获得C3中各项集的支持计数，去除支持计数小于3的项集，形成3-频繁集L3，如下表3所示。表3 3-候选集C3和3-频繁集L3 项集C3 支持计数项集L3 支持计数 { I1，I2，I4} 2 { I1，I4，I5} 4 { I1，I2，I5} 2 { I2，I4，I5} 4 { I1，I4，I5} 4 { I2，I3，I4} 2 { I2，I4，I5} 4 4）为发现频繁4-项集L4，重复上述过程，则C4为空，所有频繁集都被找到，算法到此结束。