- 1、本文档共15页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
WEKA
操作介绍
命令环境
算法实验环境
知识流环境
在KnowledgeFlow 窗口顶部有八个标签:
DataSources--数据载入器
DataSinks--数据保存器
Filters--筛选器
Classifiers--分类器
Clusterers--聚类器
Associations—关联器
Evaluation—评估器
Visualization—可视化
3
2
5
4
1
6
7
8
1.区域1的几个选项卡是用来切换不同的挖掘任务面板。
Preprocess(数据预处理)
Classify(分类)
Cluster(聚类)
Associate(关联分析)
Select Attributes(选择属性)
Visualize(可视化)
2. 区域2是一些常用按钮。包括打开数据,保存及编辑功能。我们可以在这里把“bank-data.csv”,另存为“bank-data.arff”
3.在区域3中“Choose”某个“Filter”,可以实现筛选数据或者对数据进行某种变换。数据预处理主要就利用它来实现。
对取值较多的数值型属性,离散化可借助WEKA中名为“Discretize”的Filter来完成。
4.区域4展示了数据集的一些基本情况。
5. 区域5中列出了数据集的所有属性。勾选一些属性并“Remove”就可以删除它们,删除后还可以利用区域2的“Undo”按钮找回。区域5上方的一排按钮是用来实现快速勾选的。在区域5中选中某个属性,则区域6中有关于这个属性的摘要。注意对于数值属性和标称属性,摘要的方式是不一样的。
6. 区域7是区域5中选中属性的直方图。若数据集的某个属性是目标变量,直方图中的每个长方形就会按照该变量的比例分成不同颜色的段。默认地,分类或回归任务的默认目标变量是数据集的最后一个属性。要想换个分段的依据,即目标变量,在区域7上方的下拉框中选个不同的分类属性就可以了。下拉框里选上“No Class”或者一个数值属性会变成黑白的直方图。
属性名(Name)、属性类型(Type)、缺失值(Missing)数及比例、不同值(Distinct )数、唯一值(Unique)数及比例对于数值属性和标称属性,摘要的方式是不一样的。
数值属性显示最小值(Minimum)、最大值(Maximum) 、均值(Mean)和标准差(StdDev)
7. 区域8是状态栏,可以查看Log以判断是否有错。右边的weka鸟在动的话说明WEKA正在执行挖掘任务。右键点击状态栏还可以执行JAVA内存的垃圾回收。
Using training set 使用训练集评估
Supplied test set 使用测试集评估
Cross-validation 交叉验证 设置折数Folds
Percentage split 保持方法。使用一定比例的训练实例作评估 设置训练实例的百分比
Classify
Run information 运行信息
Summary 针对训练/检验集的预测效果汇总(平均绝对误差等等)
Detailed Accuracy By Class 对每个类的预测准确度的详细描述。
Confusion Matrix 混淆矩阵,其中矩阵的行是实际的类,矩阵的列是预测得到的类,矩阵元素就是相应测试样本的个数
主要算法包括:
SimpleKMeans — 支持分类属性的K均值算法
DBScan — 支持分类属性的基于密度的算法
EM — 基于混合模型的聚类算法 FathestFirst — K中心点算法 OPTICS — 基于密度的另一个算法
Cobweb — 概念聚类算法
sIB — 基于信息论的聚类算法,不支持分类属性
XMeans — 能自动确定簇个数的扩展K均值算法,不支持分类属性
Cluster
右击左侧栏result list,点“Visualize cluster assignments”。
弹出的窗口给出了各实例的散点图。
Cluster
Associate
设置参数
car:如果设为真,则会挖掘类关联规则而不是全局关联规则。
classindex: 类属性索引。如果设置为-1,最后的属性被当做类属性。
delta: 以此数值为迭代递减单位。不断减小支持度直至达到最小支持度或产生了满足数量要求的规则。
lowerBoundMinSupport: 最小支持度下界。
metricType: 度量类型,设置对规则进行排序的度量依据。可以是:置信度(类关联规则只能用置信度挖掘),提升度(lift),平衡度(leverage),确信度(conviction)。
minMtric :度量的最小值。
numRules: 要发现的规则数。
outputItemSets: 如果设置为真,
文档评论(0)