WEKA中文-详细教程.ppt

  1. 1、本文档共300页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
WEKA中文-详细教程

数据挖掘工具--WEKA教程 WEKA简介…….2 数据集……..11 数据准备…..24 数据预处理…36 分类……………63 聚类………….184 关联规则……225 选择属性……244 数据可视化…253 知识流界面…275 1、WEKA简介 WEKA的全名是怀卡托智能分析环境 (Waikato Environment for Knowledge Analysis) weka也是新西兰的一种鸟名 是新西兰怀卡托大学WEKA小组用Java开发的机器学习/数据挖掘开源软件。其源代码获取 http://www.cs.waikato.ac.nz/ml/weka/ /weka/weka-3-6-6jre.exe 2005年8月,在第11届ACM SIGKDD国际会议上,怀卡托大学的WEKA小组荣获了数据挖掘和知识探索领域的最高服务奖, WEKA系统得到了广泛的认可,被誉为数据挖掘和机器学习历史上的里程碑,是现今最完备的数据挖掘工具之一。 WEKA的每月下载次数已超过万次。 WEKA软件 主要特点 它是集数据预处理、学习算法(分类、回归、聚类、关联分析)和评估方法等为一体的综合性数据挖掘工具。 具有交互式可视化界面。 提供算法学习比较环境 通过其接口,可实现自己的数据挖掘算法 把“Explorer”界面分成8个区域 区域1的几个选项卡是用来切换不同的挖掘任务面板。 Preprocess(数据预处理):选择和修改要处理的数据。 Classify(分类):训练和测试分类或回归模型。 Cluster(聚类):从数据中聚类。 Associate(关联分析):从数据中学习关联规则。 Select Attributes(选择属性):选择数据中最相关的属性。 Visualize(可视化) :查看数据的二维散布图。 区域2是一些常用按钮。包括打开、编辑、保存数据及数据转换等功能。例如,我们可以把文件“bank-data.csv”另存为“bank-data.arff”。 区域3中可以选择(Choose)某个筛选器(Filter),以实现筛选数据或者对数据进行某种变换。数据预处理主要就利用它来实现。 区域4展示了数据集的关系名、属性数和实例数等基本情况。 区域5中列出了数据集的所有属性。 勾选一些属性并“Remove”就可以删除它们,删除后还可以利用区域2的“Undo”按钮找回。 区域5上方的一排按钮是用来实现快速勾选的。 区域6中显示在区域5中选中的当前某个属性的摘要。 摘要包括属性名(Name)、属性类型(Type)、缺失值(Missing)数及比例、不同值(Distinct )数、唯一值(Unique)数及比例 对于数值属性和标称属性,摘要的方式是不一样的。图中显示的是对数值属性“income”的摘要。 数值属性显示最小值(Minimum)、最大值(Maximum) 、均值(Mean)和标准差(StdDev) 标称属性显示每个不同值的计数 区域7是区域5中选中属性的直方图。 若数据集的最后一个属性(这是分类或回归任务的默认目标变量)是类标变量(例如“pep” ),直方图中的每个长方形就会按照该变量的比例分成不同颜色的段。 要想换个分段的依据,在区域7上方的下拉框中选个不同的分类属性就可以了。 下拉框里选上“No Class”或者一个数值属性会变成黑白的直方图。 区域8窗口的底部区域,包括状态栏、log按钮和Weka鸟。 状态栏(Status)显示一些信息让你知道正在做什么。例如,如果 Explorer 正忙于装载一个文件,状态栏就会有通知。 在状态栏中的任意位置右击鼠标将会出现一个小菜单。这个菜单给了你两个选项: Memory Information--显示WEKA可用的内存量。 Run garbage collector--强制运行Java垃圾回收器,有哪些信誉好的足球投注网站不再需要的内存空间并将之释放,从而可为新任务分配更多的内存。 Log按钮可以查看以weka操作日志 。 右边的weka鸟在动的话,说明WEKA正在执行挖掘任务。 2、WEKA数据集 WEKA所处理的数据集是一个.arff文件的二维表 表格里的一个横行称作一个实例(Instance),相当于统计学中的一个样本,或者数据库中的一条记录。 竖行称作一个属性(Attribute),相当于统计学中的一个变量,或者数据库中的一个字段。 这样一个表格,或者叫数据集,在WEKA看来,呈现了属性之间的一种关系(Relation)。 上图中一共有14个实例,5个属性,关系名称为“weather”。 WEKA存储数据的格式是ARFF(Attribute-Relation File Format)文件,这是一种ASCII文本文件。 上图所示的二维表格存储在如下的ARFF文件中。这也就

文档评论(0)

yan698698 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档