数据挖掘题目及答案.doc

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一、何为数据仓库?其主要特点是什么?数据仓库与的联系是什么? 数据仓库是一个面向主题的( )、集成的()、相对稳定的()、反映历史变化( )的数据集合,用于支持管理决策。 特点: 、面向主题   操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。   、集成的   数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。   、相对稳定的   数据仓库的数据主要供企业决策分析之用,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。   、反映历史变化   数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。 所谓基于数据库的知识发现()是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。数据仓库为提供了数据环境,从数据仓库中提取有效的,可用的信息 二、 数据库有笔交易。设,。 {, , , } {, , , , } {, , } {, , , } 使用算法找出频繁项集,列出所有关联规则。 解:已知最小支持度为,最小置信度为 )第一步,对事务数据库进行一次扫描,计算出中所包含的每个项目出现的次数,生成候选项集的集合。 项集 {, , , } {, , , , } {, , } {, , , } 项集 支持度计数 {} {} {} {} {} {} {} )第二步,根据设定的最小支持度,从中确定频繁项集。 项集 支持度计数 {} {} {} )第三步,由产生候选项集,然后扫描事务数据库对中的项集进行计数。 项集 支持度计数 {, } {, } {, } ) 第四步,根据最小支持度,从候选集中确定频繁项集。 项集 支持度计数 {, } {, } {, } )第五步,由频繁项集生成候选项集,生成的候选项集的集合{},的子集都是频繁的,且项集{,,}计数为,即{}即为频繁项集。 由频繁项集产生关联规则如下: 针对频繁项集,非空真子集有:{},{},{},{},{},{},相应的置信度为: 规则 置信度 因为最小置信度为,故所有关联规则为: 、、 三、假设数据集含有个数据对象(用二维空间的点表示): (, ),(, ),(, ),(, ),(, ),(, ),(, ),(, ),(, ) 基于欧几里得距离采用均值方法聚类,取,初始的簇质心为,和,求: () 第一次循环结束时的三个簇的质心。 () 最后求得的三个簇。 解:()第一次循环: (,)()() (,)()() (,)()() 因为(,)最小,所以, (,)()() (,)()() (,)()() 因为(,)最小,所以, (,)()() (,)()() (,)()() 因为(,)最小,所以, (,)()() (,)()() (,)()() 因为(,)最小,所以, (,)()() (,)()() (,)()() 因为(,)最小,所以, (,)()() (,)()() (,)()() 因为(,)最小,所以, (,)()() (,)()() (,)()() 因为(,)最小,所以, (,)()() (,)()() (,)()() 因为(,)最小,所以, (,)()() (,)()() (,)()() 因为(,)最小,所以, 所以第一次循环结束时, 第一类:,,质心为(, ) 第二类:,,, 质心为(, ) 第三类:,,,, 质心为(, ) () 第二次循环结束时, 第一类:,,,质心为(), 第二类:,,,质心为(), 第三类:,,质心为()。 第三次循环结束时, 第一类:,,,质心为(), 第二类:,,,质心为(), 第三类:,,质心为()。 结果与第二次循环结束的结果一样,故最后求得的结果为: 第一类:,,,质心为(), 第二类:,,,质心为(), 第三类:,,质心为()。 四、给定数据集,试根据前个样本构造决策树模型,并

文档评论(0)

勤能补拙 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档