网站大量收购独家精品文档,联系QQ:2885784924

数据仓库与数据掘报告.doc

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库与数据掘报告

数据仓库与数据挖掘期末作业 学校 学院 专业班级 任课教师 学号 学生姓名 第一题:简述“基于独立数据集市的数据仓库体系结构”、“基于依赖性数据集市和操作型数据存储的数据仓库体系结构”的优缺点。 第二题:简述数据仓库中的ETL过程。 第三题:简述K-means聚类算法的基本思想与求解过程。 第四题:简述人工神经网络的网络结构类型以及BP算法的实现过程。 第五题:自拟一实例,以图示方式描述Apriori算法的求解过程。 第六题:结合现实情况构造一个有关贝叶斯网络的具体案例,要求实现预测、诊断功能。 要求:在此作业模板下答题,电子文档及其打印文档均需上交,其中,电子文档发送至duyuanwei@,打印文稿于16周上课时上交。 第一题 答:在独立型数据集市中,数据来自一个或多个操作系统或外部信息提供者,或者来自在一个特定的部门或地域局部产生的数据。依赖型数据集市中的数据直接来自企业数据仓库。两者的区别就在于是否从一个中央数据仓库而来。在扩展性方面,独立型数据集市还是会导致不一致的数据。因为它可能按照自己本地的方式来进行编码,当存在多个独立数据集市的时候,他们之间的数据很难共享。依赖型的数据集市则是按照中央数据仓库统一的编码方式,可以共享。 第二题 答:(1)数据ETL是用来实现异构数据源的数据集成,即完成数据的抓取/抽取(Capture/Extract)、清洗(Scrub or data cleansing)、转换(Transform)、加载与索引(Load and Index)等数据调和工作。 数据抽取:从原文件和源数据库中获取相关数据用于填充数据仓库。 数据清洗:是一种使用模式识别和其他技术,在将原始数据转换和移动数据仓库之前来升级原始数据质量的技术。 数据转换:它是数据的ETL过程中处于中心位置,它把数据从源操作业务的格式转换到企业数据仓库的数据格式。 数据加载与索引:加载和索引即是把数据加载到数据仓库或数据集市的过程。 (2)数据的ETL过程(又称数据调和过程),是将操作型数据转换成调和数据的过程。数据调和是构建一个数据仓库中最难得也是最具技术挑战性的部分。 下图是ETL的过程示意图: 第三题 答:K-means聚类算法的基本思想: 通过迭代过程把数据集划分为不同的类别,使得评价聚类性能的准则函数得到最优,从而 使生成的每个聚类类内紧凑,类间独立。 K-means聚类算法的求解过程: 第四题 答:人工神经网络的网络结构类型:单层前馈神经网络、多层前馈神经网络、反馈神经网络。 人工神经网络的BP算法的实现过程: 输入:给定训练集Xtrain,其中每一个训练样本都是由一组输入和一组输出构成,所有的输入和输出都是【0,1】之间的浮点数据(如果不是,要首先通过数据变换把它们映射到【0,1】区间);神经网络结构:隐含层节点数目;神经网络每个节点的、参数化了的特征函数。 输出:神经为网络每个节点特征函数的参数。 按照式()计算总体误差对于每个参数的有序导数公式(函数)。 任意选择一组数据作为初始参数,一般选取(0,0……0),把这组初始参数作为当前参数。 根据当前参数和式()计算总体误差,如果误差足够小,就把当前参数作为输出,退出;否则,继续下面的步骤。 根据式()和当前参数的数值,计算总体误差对于各个参数的有序导数的数值。 按照式()计算各个参数的增量,并计算调整后的参数大小。把调整后的参数作为当前参数,回到第(3)步。 需要注意的是,第(5)步中 的值选取是依据经验的,通常是一个比较小的值,如0.01等。 第五题 答:如表所示为事务数据库D,设最小支持度为20%,挖掘频繁项集的具体过程如图所示。 事务数据库D 如图所示为Apriori算法挖掘频繁集的过程,其中最小支持度为20%。  Apriori算法的执行流程 ??? 第一步, 经过算法的第一次迭代,对事务数据库进行一次扫描,计算出D中所包含的每个项目出现的次数,生成候选1-项集的集合C1。 ??? 第二步,根据设定的最小支持度,从C1中确定频繁1-项集L1。 ??? 第三步,由L1产生候选2-项集C2,然后扫描事务数据库对C2中的项集进行计数。 ??? 第四步,根据最小支持度,从候选集C2中确定频繁集L2。 第五步,由频繁2-项集L2生成候选3-项集C3,生成的候选3-项集的集合C3={{1,2,3},{1,3,5},{2,3,5}},根据Apriori的性质剪枝:所有的频繁项集的子集都是频繁的,项集{1,2,3}的子集{1,2}不包含在频繁2-项集L2中,故删除{1,2,3}。项集{1,3,5}的子集{1,5}也不包含在频繁2-项集L2中,故删除{1,3,5},项

文档评论(0)

xll805 + 关注
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档