weka操作介绍分解.pptx

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
WEKA 操作介绍 命令环境 算法实验环境 知识流环境 在KnowledgeFlow 窗口顶部有八个标签: DataSources--数据载入器 DataSinks--数据保存器 Filters--筛选器 Classifiers--分类器 Clusterers--聚类器 Associations—关联器 Evaluation—评估器 Visualization—可视化 3 2 5 4 1 6 7 8 1.区域1的几个选项卡是用来切换不同的挖掘任务面板。 Preprocess(数据预处理) Classify(分类) Cluster(聚类) Associate(关联分析) Select Attributes(选择属性) Visualize(可视化) 2. 区域2是一些常用按钮。包括打开数据,保存及编辑功能。我们可以在这里把“bank-data.csv”,另存为“bank-data.arff” 3.在区域3中“Choose”某个“Filter”,可以实现筛选数据或者对数据进行某种变换。数据预处理主要就利用它来实现。 对取值较多的数值型属性,离散化可借助WEKA中名为“Discretize”的Filter来完成。 4.区域4展示了数据集的一些基本情况。 5. 区域5中列出了数据集的所有属性。勾选一些属性并“Remove”就可以删除它们,删除后还可以利用区域2的“Undo”按钮找回。区域5上方的一排按钮是用来实现快速勾选的。在区域5中选中某个属性,则区域6中有关于这个属性的摘要。注意对于数值属性和标称属性,摘要的方式是不一样的。 6. 区域7是区域5中选中属性的直方图。若数据集的某个属性是目标变量,直方图中的每个长方形就会按照该变量的比例分成不同颜色的段。默认地,分类或回归任务的默认目标变量是数据集的最后一个属性。要想换个分段的依据,即目标变量,在区域7上方的下拉框中选个不同的分类属性就可以了。下拉框里选上“No Class”或者一个数值属性会变成黑白的直方图。 属性名(Name)、属性类型(Type)、缺失值(Missing)数及比例、不同值(Distinct )数、唯一值(Unique)数及比例对于数值属性和标称属性,摘要的方式是不一样的。 数值属性显示最小值(Minimum)、最大值(Maximum) 、均值(Mean)和标准差(StdDev) 7. 区域8是状态栏,可以查看Log以判断是否有错。右边的weka鸟在动的话说明WEKA正在执行挖掘任务。右键点击状态栏还可以执行JAVA内存的垃圾回收。 Using training set 使用训练集评估 Supplied test set 使用测试集评估 Cross-validation 交叉验证 设置折数Folds Percentage split 保持方法。使用一定比例的训练实例作评估 设置训练实例的百分比 Classify Run information 运行信息 Summary 针对训练/检验集的预测效果汇总(平均绝对误差等等) Detailed Accuracy By Class 对每个类的预测准确度的详细描述。 Confusion Matrix 混淆矩阵,其中矩阵的行是实际的类,矩阵的列是预测得到的类,矩阵元素就是相应测试样本的个数 主要算法包括: SimpleKMeans — 支持分类属性的K均值算法 DBScan — 支持分类属性的基于密度的算法 EM — 基于混合模型的聚类算法 FathestFirst — K中心点算法 OPTICS — 基于密度的另一个算法 Cobweb — 概念聚类算法 sIB — 基于信息论的聚类算法,不支持分类属性 XMeans — 能自动确定簇个数的扩展K均值算法,不支持分类属性 Cluster 右击左侧栏result list,点“Visualize cluster assignments”。 弹出的窗口给出了各实例的散点图。 Cluster Associate 设置参数 car:如果设为真,则会挖掘类关联规则而不是全局关联规则。 classindex: 类属性索引。如果设置为-1,最后的属性被当做类属性。 delta: 以此数值为迭代递减单位。不断减小支持度直至达到最小支持度或产生了满足数量要求的规则。 lowerBoundMinSupport: 最小支持度下界。 metricType: 度量类型,设置对规则进行排序的度量依据。可以是:置信度(类关联规则只能用置信度挖掘),提升度(lift),平衡度(leverage),确信度(conviction)。 minMtric :度量的最小值。 numRules: 要发现的规则数。 outputItemSets: 如果设置为真,

文档评论(0)

jiayou10 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8133070117000003

1亿VIP精品文档

相关文档