- 1、本文档共7页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一、何为数据仓库?其主要特点是什么?数据仓库与的联系是什么?
数据仓库是一个面向主题的( )、集成的()、相对稳定的()、反映历史变化( )的数据集合,用于支持管理决策。
特点:
、面向主题
操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。
、集成的
数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
、相对稳定的
数据仓库的数据主要供企业决策分析之用,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
、反映历史变化
数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
所谓基于数据库的知识发现()是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。数据仓库为提供了数据环境,从数据仓库中提取有效的,可用的信息
二、
数据库有笔交易。设,。
{, , , }
{, , , , }
{, , }
{, , , }
使用算法找出频繁项集,列出所有关联规则。
解:已知最小支持度为,最小置信度为
)第一步,对事务数据库进行一次扫描,计算出中所包含的每个项目出现的次数,生成候选项集的集合。
项集
{, , , }
{, , , , }
{, , }
{, , , }
项集
支持度计数
{}
{}
{}
{}
{}
{}
{}
)第二步,根据设定的最小支持度,从中确定频繁项集。
项集
支持度计数
{}
{}
{}
)第三步,由产生候选项集,然后扫描事务数据库对中的项集进行计数。
项集
支持度计数
{, }
{, }
{, }
) 第四步,根据最小支持度,从候选集中确定频繁项集。
项集
支持度计数
{, }
{, }
{, }
)第五步,由频繁项集生成候选项集,生成的候选项集的集合{},的子集都是频繁的,且项集{,,}计数为,即{}即为频繁项集。
由频繁项集产生关联规则如下:
针对频繁项集,非空真子集有:{},{},{},{},{},{},相应的置信度为:
规则
置信度
因为最小置信度为,故所有关联规则为:
、、
三、假设数据集含有个数据对象(用二维空间的点表示):
(, ),(, ),(, ),(, ),(, ),(, ),(, ),(, ),(, )
基于欧几里得距离采用均值方法聚类,取,初始的簇质心为,和,求:
() 第一次循环结束时的三个簇的质心。
() 最后求得的三个簇。
解:()第一次循环:
(,)()()
(,)()()
(,)()()
因为(,)最小,所以,
(,)()()
(,)()()
(,)()()
因为(,)最小,所以,
(,)()()
(,)()()
(,)()()
因为(,)最小,所以,
(,)()()
(,)()()
(,)()()
因为(,)最小,所以,
(,)()()
(,)()()
(,)()()
因为(,)最小,所以,
(,)()()
(,)()()
(,)()()
因为(,)最小,所以,
(,)()()
(,)()()
(,)()()
因为(,)最小,所以,
(,)()()
(,)()()
(,)()()
因为(,)最小,所以,
(,)()()
(,)()()
(,)()()
因为(,)最小,所以,
所以第一次循环结束时,
第一类:,,质心为(, )
第二类:,,, 质心为(, )
第三类:,,,, 质心为(, )
() 第二次循环结束时,
第一类:,,,质心为(),
第二类:,,,质心为(),
第三类:,,质心为()。
第三次循环结束时,
第一类:,,,质心为(),
第二类:,,,质心为(),
第三类:,,质心为()。
结果与第二次循环结束的结果一样,故最后求得的结果为:
第一类:,,,质心为(),
第二类:,,,质心为(),
第三类:,,质心为()。
四、给定数据集,试根据前个样本构造决策树模型,并
您可能关注的文档
最近下载
- 【专项练习】四年级上册数学试题--第二单元专项—《填写单位》 人教版 (含答案).doc VIP
- 药学英语(上册)(第5版)史志祥课后习题答案解析.pdf
- 高中入团思想汇报范文(6篇).docx VIP
- 公路大中修工程交通组织方案设计与研究-来源:现代企业文化·下旬刊(第2021007期)-中国工人出版社.pdf VIP
- 稻盛和夫《心》读后感集合5篇.docx VIP
- 个人现实表现(现实表现).pdf VIP
- 货物运输投标文件(技术部分).pdf
- GB_T 15560-1995《流体输送用塑料管材液压瞬时爆破和耐压试验方法》.pdf
- 食材配送项目投标文件.doc
- (统编2024版)一年级道德与法治上册 第8课 课余生活真丰富 教学设计.docx
文档评论(0)