- 1、本文档共11页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘导论IrisKDD分析
`
题 目 iris数据集的 二〇 一六年 9月
iris数据集的知识发现(KDD:Knowledge Discovery in Database)是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。知识发现将信息变为知识,从数据矿山中找到蕴藏的知识金块,将为知识创新和知识经济的发展作出贡献。该术语于1989年出现,Fayyad定义为KDD是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程”。
KDD目的是利用所发现的模式解决实际问题,“被人”的模式帮助人们理解模式包含的信息,从而的评估和利用。核心作为一个KDD的工程而言,KDD通常包含一系列复杂的挖掘步骤. Fayyad,Piatetsky-Shapiro 和 Smyth 在 1996年合作发布的论文From Data Mining to knowledge discovery中总结出了KDD包含的5个最基本步骤(如图).
1: selection: 在第一个步骤中我们往往要先知道什么样的数据可以应用于我们的KDD工程中.
2: pre-processing: 当采集到数据后,下一步必须要做的事情是对数据进行预处理,尽量消除数据中存在
的错误以及缺失信息.
3: transformation: 转换数据为数据挖掘工具所需的格式.这一步可以使得结果更加理想化.
4: data mining: 应用数据挖掘工具.
5:interpretation/ evaluation: 了解以及评估数据挖掘结果.
实验软件:eka3-9.
数据集来源:/ml/datasets/Iris
第2章、实验过程
2.1数据准备
1.从uci的数据集官网下载iris的数据源
2.数据,清洗数据,变换数据
iris的数据集
Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。过程
2.2.1.
(1)C4.5数据挖掘算法weka进行有的学习训练,选择挖掘算法,在eka中名为将test options ercentage split ,使用默认百分比%。
选择class作为输出属性。如图:
2.设置完成后点击start开始执行(2)Simple KMeans算法
1加载数据到ka,切换到luster选项卡,选择imple KMeans算法 2.设置算法参数,标准差,迭代次数设为,其他默认花的种类为如所示
luster Mode 面板选择评估数据为 trainin set,并单击gnore attribu,忽略class属性。4.点击start按钮,执行程序结果及分析
C4.5结果分析
1.
=== Run information ===
Scheme: weka.classifiers.trees.J48 -C 0.25 -M 2
Relation: iris
Instances: 150
Attributes: 5
sepal length
sepal width
petal length
petal width
class
Test mode: split 66.0% train, remainder test
=== Classifier model (full training set) ===
J48 pruned tree
------------------
petal width = 0.6: Iris-setosa (50.0)
petal width 0.6
| petal width = 1.7
| | petal length = 4.9: Iris-versicolor (48.0/1.0)
| | petal length 4.9
| | | petal width = 1.5: Iris-virginica (3.0)
| | | petal width 1.5: Iris-versicolor (3.0/1.0)
| petal width 1.7: Iris-virginica (46.0/1.0)
Number of Leaves : 5
Size of the tree : 9
Time taken to build model
文档评论(0)