- 1、本文档共7页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
臣心一片磁针石,不指南方不肯休。——文天祥
13.5思考练习
1.数据库与数据仓库的本质区别是什么?
解:
(1)数据库用于事务处理,数据仓库用于决策分析;
(2)数据库保持事务处理的当前状态,数据仓库既保存过去的数据又保存当前的数据;
(3)数据仓库的数据时大量数据库的集成;
(4)对数据库的操作比较明确,操作数据量少,对数据仓库操作不明确,操作数据量大;
(5)数据库是细节的、在存取时准确的、可更新的、一次操作数据量少、面向应用且支
持不按理;数据仓库是综合或提炼的、代表过去的数据、不更新、一次操作数据量大、面向
分析且支持决策。
2.数据挖掘的数据源是否必须是数据仓库的数据?
解:
(1)数据仓库系统的数据可以作为数据挖掘的数据源;
(2)数据挖掘的数据源不一定必须是数据仓库系统。
3.数据挖掘的技术主要包含哪几种?
解:
数据挖掘的常用技术有聚类分析、决策树、人工神经网络、粗糙集、关联规则挖掘、统
计分析等。
4.数据挖掘的具体功能有哪些?
解:
(1)描述:定性与对比
对含有大量数据的数据集合进行概述性的总结并获得简明、准确的描述,这种描述就称
为概念描述。获得描述的方法主要有两种:
利用更为广义的属性,对所分析数据进行概要总结。
对两类所分析的数据特点进行对比并对对比结果给出概要性总结。
(2)关联分析
关联分析就是从给定的数据集发现频繁出现的项集模式知识。关联分析广泛用于市场营
销、事务分析等应用领域。
通常关联规则具有:形式,即“”;其中()和()均为属性-值(属性=值)形式。关
联规则表示“数据库中的满足X中条件的记录也一定满足Y中的条件”
(3)分类与预测
分类就是找出一组能够描述数据集合典型特征的模型(或函数),以便能够分类识别未
知数据的归属或类别,即将未知事例映射到某种离散类别之一。分类模型(或函数)可以通
过分类挖掘算法从一组训练样本数据(其类别归属已知)中学习获得。
分类挖掘所获得得分类模型可以采用多种形式加以描述输出。其中主要得表示方法有:
分类规则(IF-THEN)、决策树(decisiontrees)、数学公式和神经网络。
分类通常用于预测位置数据实例得归属类别(有限离散值)。但在一些情况下,需要预
测某数值属性的值(连续数值),这样的分类就被称为预测。尽管预测既包括连续数值的预
测,也包括有限离散值的分类;但一般还是使用预测来表示对连续数值的预测;而使用分类
来表示对有限离散值的预测。
(4)聚类分析
臣心一片磁针石,不指南方不肯休。——文天祥
聚类分析与分类预测方法明显不同之处在于,后者所学习获取分类预测模型所使用的数
据是已知类别归属,属于有教师监督学习方法;而聚类分析所分析处理的数据均是无类别归
属,类别归属标志在聚类分析处理的数据集中是不存在的。
聚类分析中,首先需要根据“各聚集内部数据对象间的相似度最大化,而各聚集对象间
相似度最小化”的基本聚类分析原则,以及度量数据对象之间相似度的计算公式,将聚类分
析的数据对象划分为若干组,因此一个组中数据对象间的相似度要比不同组数据对象间的相
似度要大。每一个聚类分析所获得的组就可以视为是一个同类别归属的数据对象集合,更进
一步从这些同
文档评论(0)