weka操作介绍分解.pptx

下载文档 降价啦

13
0
约2.17千字
约 15页
2017-03-31 发布于湖北
举报
版权申诉
保障服务

weka操作介绍分解.pptx

1、本文档共15页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

WEKA 操作介绍命令环境算法实验环境知识流环境在KnowledgeFlow 窗口顶部有八个标签： DataSources--数据载入器 DataSinks--数据保存器 Filters--筛选器 Classifiers--分类器 Clusterers--聚类器 Associations—关联器 Evaluation—评估器 Visualization—可视化 3 2 5 4 1 6 7 8 1.区域1的几个选项卡是用来切换不同的挖掘任务面板。 Preprocess（数据预处理） Classify（分类） Cluster（聚类） Associate（关联分析） Select Attributes（选择属性） Visualize（可视化） 2. 区域2是一些常用按钮。包括打开数据，保存及编辑功能。我们可以在这里把“bank-data.csv”，另存为“bank-data.arff” 3.在区域3中“Choose”某个“Filter”，可以实现筛选数据或者对数据进行某种变换。数据预处理主要就利用它来实现。对取值较多的数值型属性，离散化可借助WEKA中名为“Discretize”的Filter来完成。 4.区域4展示了数据集的一些基本情况。 5. 区域5中列出了数据集的所有属性。勾选一些属性并“Remove”就可以删除它们，删除后还可以利用区域2的“Undo”按钮找回。区域5上方的一排按钮是用来实现快速勾选的。在区域5中选中某个属性，则区域6中有关于这个属性的摘要。注意对于数值属性和标称属性，摘要的方式是不一样的。 6. 区域7是区域5中选中属性的直方图。若数据集的某个属性是目标变量，直方图中的每个长方形就会按照该变量的比例分成不同颜色的段。默认地，分类或回归任务的默认目标变量是数据集的最后一个属性。要想换个分段的依据，即目标变量，在区域7上方的下拉框中选个不同的分类属性就可以了。下拉框里选上“No Class”或者一个数值属性会变成黑白的直方图。属性名（Name）、属性类型（Type）、缺失值（Missing）数及比例、不同值（Distinct ）数、唯一值（Unique）数及比例对于数值属性和标称属性，摘要的方式是不一样的。数值属性显示最小值（Minimum）、最大值（Maximum）、均值（Mean）和标准差（StdDev） 7. 区域8是状态栏，可以查看Log以判断是否有错。右边的weka鸟在动的话说明WEKA正在执行挖掘任务。右键点击状态栏还可以执行JAVA内存的垃圾回收。 Using training set 使用训练集评估 Supplied test set 使用测试集评估 Cross-validation 交叉验证设置折数Folds Percentage split 保持方法。使用一定比例的训练实例作评估设置训练实例的百分比 Classify Run information 运行信息 Summary 针对训练/检验集的预测效果汇总（平均绝对误差等等） Detailed Accuracy By Class 对每个类的预测准确度的详细描述。 Confusion Matrix 混淆矩阵，其中矩阵的行是实际的类，矩阵的列是预测得到的类，矩阵元素就是相应测试样本的个数主要算法包括： SimpleKMeans — 支持分类属性的K均值算法 DBScan — 支持分类属性的基于密度的算法 EM — 基于混合模型的聚类算法 FathestFirst — K中心点算法 OPTICS — 基于密度的另一个算法 Cobweb — 概念聚类算法 sIB — 基于信息论的聚类算法，不支持分类属性 XMeans — 能自动确定簇个数的扩展K均值算法，不支持分类属性 Cluster 右击左侧栏result list，点“Visualize cluster assignments”。弹出的窗口给出了各实例的散点图。 Cluster Associate 设置参数 car：如果设为真，则会挖掘类关联规则而不是全局关联规则。 classindex：类属性索引。如果设置为-1，最后的属性被当做类属性。 delta：以此数值为迭代递减单位。不断减小支持度直至达到最小支持度或产生了满足数量要求的规则。 lowerBoundMinSupport：最小支持度下界。 metricType：度量类型，设置对规则进行排序的度量依据。可以是：置信度（类关联规则只能用置信度挖掘），提升度(lift)，平衡度(leverage)，确信度(conviction)。 minMtric ：度量的最小值。 numRules：要发现的规则数。 outputItemSets：如果设置为真，