2011级硕士研究生试题.docVIP

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2011级硕士研究生试题

PAGE PAGE 1 2011级研究生“数据仓库和数据挖掘”课程期末考试试题 1、(25分)有一个学生成绩管理系统,其中含有学生的学号、姓名、性别、籍贯、分数等信息,现在要构建一个数据仓库,其主题是学生成绩,回答以下问题: (1)给出该数据仓库中事实表的结构。 (2)给出该数据仓库中所有维表的结构。 (3)画出该数据仓库的模型,问属于哪种模型。 (1)学生成绩事实表 学生 课程 成绩 (2)该数据仓库包含学生维表和课程维表 学号 姓名 性别 籍贯 课程名 课程编号 授课教师 (3)星型模型 成绩事实表 姓名 课程 成绩 学生维表 课程维表 学号 姓名 性别 籍贯 课程名 课程编号 授课教师 度量 度量 2、(15分)简述OLAP的基本操作。 OLAP的基本操作主要包括对多维数据进行切片、切块、旋转、钻取等分析操作。这些分析操作使得用户可以从多个角度、多个侧面观察数据库中的数据,从而更加深入地了解包含在数据中的信息。 ??? 1.切片(Slicing) ??? 切片操作就是在某个或某些维上选定一个属性成员,而在其他维上取一定区间的属性成员,或全部属性成员来观察数据的一种分析方式。 ??? 2.切块(Dicing) ??? 切块就是在各个维上去一定区间的成员属性,或全部成员属性来观察数据的一种分析方式,可以认为切片是切块的特例,切块是切片的扩展。 ????3.钻取(Drilling) ??? 钻取包含向下钻(Drill-down)和向上钻(Drill-up)/上卷(Roll-up)操作。下钻指从概括性的数据出发获得相应的更详细的数据,上钻则相反。钻取的深度与维度所划分的层次相对应。 ??? 4.旋转(Pivoting) ??? 旋转即改变一个报告或页面显示的维方向。旋转可能包含交换行和列,或是把某一个行维移到列为中去,或包页面显示中的一个维和页面外的维进行交换。 3、(20分)有一个事务集合如表1所示,设最小支持计数为3,采用Apriori算法求出所有的频繁集。 表1 一个事务集合T 事务 项 1 I1,I2,I4,I5 2 I2,I3,I4 3 I1,I2,I4,I5 4 I1,I3,I4,I5 5 I2,I3,I4,I5 6 I2,I4,I5 7 I3,I4 8 I1,I2,I3 9 I1,I4,I5 10 I3,I4 1)由I={ I1,I2,I3,I4,I5}的所有项目直接产生1-候选集C1,计算其支持计数。去除支持计数小于3的项集,形成1-频繁集L1,如表1所示。 表1 1-候选集C1和1-频繁集L1 项集C1 支持计数 项集L1 支持计数 { I1} 5 { I1} 5 { I2} 6 { I2} 6 { I3} 6 { I3} 6 { I4} 9 { I4} 9 { I5} 6 { I5} 6 2)为发现频繁2-项集L2,首先利用L1中的各项目组合连接,来产生2-候选集C2;然后扫描记录集,以获得C2中各项集的支持度。去除支持计数小于3的项集,形成2-频繁集L2,如下表2所示。 表2 2-候选集C2和2-频繁集L2 项集C2 支持计数 项集L2 支持计数 { I1,I2} 3 { I1,I2} 3 { I1,I3} 2 { I1,I4} 4 { I1,I4} 4 { I1,I5} 4 { I1,I5} 4 { I2,I3} 3 { I2,I3} 3 { I2,I4} 5 { I2,I4} 5 { I2,I5} 4 { I2,I5} 4 { I3,I4} 5 { I3,I4} 5 { I4,I5} 6 { I3,I5} 2 { I4,I5} 6 3)为发现频繁3-项集L3,首先利用L2中的各项目组合连接,来产生3-候选集C3。连接时只能将只差最后一个项目的不同项集进行连接。连接后还要根据Apriori的性质:频繁集的子集一定是频繁的来修剪。最后扫描记录集,以获得C3中各项集的支持计数,去除支持计数小于3的项集,形成3-频繁集L3,如下表3所示。 表3 3-候选集C3和3-频繁集L3 项集C3 支持计数 项集L3 支持计数 { I1,I2,I4} 2 { I1,I4,I5} 4 { I1,I2,I5} 2 { I2,I4,I5} 4 { I1,I4,I5} 4 { I2,I3,I4} 2 { I2,I4,I5} 4 4)为发现频繁4-项集L4,重复上述过程,则C4为空,所有频繁集都被找到,算法到此结束。

文档评论(0)

zsmfjy + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档