- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库与数据掘报告
数据仓库与数据挖掘期末作业
学校 学院 专业班级 任课教师 学号 学生姓名
第一题:简述“基于独立数据集市的数据仓库体系结构”、“基于依赖性数据集市和操作型数据存储的数据仓库体系结构”的优缺点。
第二题:简述数据仓库中的ETL过程。
第三题:简述K-means聚类算法的基本思想与求解过程。
第四题:简述人工神经网络的网络结构类型以及BP算法的实现过程。
第五题:自拟一实例,以图示方式描述Apriori算法的求解过程。
第六题:结合现实情况构造一个有关贝叶斯网络的具体案例,要求实现预测、诊断功能。
要求:在此作业模板下答题,电子文档及其打印文档均需上交,其中,电子文档发送至duyuanwei@,打印文稿于16周上课时上交。
第一题
答:在独立型数据集市中,数据来自一个或多个操作系统或外部信息提供者,或者来自在一个特定的部门或地域局部产生的数据。依赖型数据集市中的数据直接来自企业数据仓库。两者的区别就在于是否从一个中央数据仓库而来。在扩展性方面,独立型数据集市还是会导致不一致的数据。因为它可能按照自己本地的方式来进行编码,当存在多个独立数据集市的时候,他们之间的数据很难共享。依赖型的数据集市则是按照中央数据仓库统一的编码方式,可以共享。
第二题
答:(1)数据ETL是用来实现异构数据源的数据集成,即完成数据的抓取/抽取(Capture/Extract)、清洗(Scrub or data cleansing)、转换(Transform)、加载与索引(Load and Index)等数据调和工作。
数据抽取:从原文件和源数据库中获取相关数据用于填充数据仓库。
数据清洗:是一种使用模式识别和其他技术,在将原始数据转换和移动数据仓库之前来升级原始数据质量的技术。
数据转换:它是数据的ETL过程中处于中心位置,它把数据从源操作业务的格式转换到企业数据仓库的数据格式。
数据加载与索引:加载和索引即是把数据加载到数据仓库或数据集市的过程。
(2)数据的ETL过程(又称数据调和过程),是将操作型数据转换成调和数据的过程。数据调和是构建一个数据仓库中最难得也是最具技术挑战性的部分。
下图是ETL的过程示意图:
第三题
答:K-means聚类算法的基本思想:
通过迭代过程把数据集划分为不同的类别,使得评价聚类性能的准则函数得到最优,从而
使生成的每个聚类类内紧凑,类间独立。
K-means聚类算法的求解过程:
第四题
答:人工神经网络的网络结构类型:单层前馈神经网络、多层前馈神经网络、反馈神经网络。
人工神经网络的BP算法的实现过程:
输入:给定训练集Xtrain,其中每一个训练样本都是由一组输入和一组输出构成,所有的输入和输出都是【0,1】之间的浮点数据(如果不是,要首先通过数据变换把它们映射到【0,1】区间);神经网络结构:隐含层节点数目;神经网络每个节点的、参数化了的特征函数。
输出:神经为网络每个节点特征函数的参数。
按照式()计算总体误差对于每个参数的有序导数公式(函数)。
任意选择一组数据作为初始参数,一般选取(0,0……0),把这组初始参数作为当前参数。
根据当前参数和式()计算总体误差,如果误差足够小,就把当前参数作为输出,退出;否则,继续下面的步骤。
根据式()和当前参数的数值,计算总体误差对于各个参数的有序导数的数值。
按照式()计算各个参数的增量,并计算调整后的参数大小。把调整后的参数作为当前参数,回到第(3)步。
需要注意的是,第(5)步中 的值选取是依据经验的,通常是一个比较小的值,如0.01等。
第五题
答:如表所示为事务数据库D,设最小支持度为20%,挖掘频繁项集的具体过程如图所示。
事务数据库D
如图所示为Apriori算法挖掘频繁集的过程,其中最小支持度为20%。
Apriori算法的执行流程
??? 第一步, 经过算法的第一次迭代,对事务数据库进行一次扫描,计算出D中所包含的每个项目出现的次数,生成候选1-项集的集合C1。
??? 第二步,根据设定的最小支持度,从C1中确定频繁1-项集L1。
??? 第三步,由L1产生候选2-项集C2,然后扫描事务数据库对C2中的项集进行计数。
??? 第四步,根据最小支持度,从候选集C2中确定频繁集L2。
第五步,由频繁2-项集L2生成候选3-项集C3,生成的候选3-项集的集合C3={{1,2,3},{1,3,5},{2,3,5}},根据Apriori的性质剪枝:所有的频繁项集的子集都是频繁的,项集{1,2,3}的子集{1,2}不包含在频繁2-项集L2中,故删除{1,2,3}。项集{1,3,5}的子集{1,5}也不包含在频繁2-项集L2中,故删除{1,3,5},项
您可能关注的文档
最近下载
- 海康威视VisionMaster算法平台用户手册V2.2.pdf
- 石秀峰-数据治理-企业数字化转型必经之路-2022.3.19.pdf VIP
- 某大学综合体育馆项目可行性研究报告.doc VIP
- 幼儿园大班音乐《光脚的小约翰》活动课件.pptx
- 三校生计算机基础知识提纲及讲义资料.docx
- 三年级音乐学情及教材分析集合6篇 .pdf VIP
- 2024《小米公司手机品牌营销环境SWOT分析及营销策略》10000字.docx
- 九年级化学下册教学课件《跨学科实践活动9 探究土壤酸碱性对植物生长的影响》.pptx VIP
- 大疆 大疆智图 操作白皮书.pdf VIP
- 2025年贵州遵义市仁怀市申仁包装印务有限责任公司招聘笔试参考题库附带答案详解.pdf
文档评论(0)