- 1、本文档共29页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第一节 知识获取平台— Weka 简介
◆Weka 简介
Weka 是由新西兰怀卡托大学开发的智能分析系统(Waikato Environment for Knowledge Analysis ) 。在怀卡托大学
以外的地方,Weka 通常按谐音念成Mecca,是一种现今仅存活于新西兰岛的,健壮的棕色鸟, 非常害羞,好奇心很强,
但不会飞 。
Weka 是用Java 写成的,它可以运行于几乎所有的操作平台,包括Linux ,Windows 等操作系统。
Weka 平台提供一个统一界面,汇集了当今最经典的机器学习算法及数据预处理工具。做为知识获取的完整系统,
包括了数据输入、预处理、知识获取、模式评估等环节,以及对数据及学习结果的可视化操作。并且可以通过对不同
的学习方法所得出的结果进行比较,找出解决当前问题的最佳算法。
2005 年8 月,在第 11 届ACM SIGKDD 国际会议上,怀卡托大学的Weka 小组荣获了数据挖掘和知识探索领域的
最高服务奖,Weka 系统得到了广泛的认可,被誉为数据挖掘和机器学习历史上的里程碑,是现今最完备的数据挖掘工
具之一(已有 11 年的发展历史)。Weka 的每月下载次数已超过万次。
◆Weka 平台在哪里下载?如何安装?
用户可到 http://www.cs.waikato.ac.nz/ml/weka/index_downloading.html 上下载与具体操作系统相匹配的安装文件,
然后在已安装了Java 的机器上以通常的方式运行weka 3.5.5.exe 。
用户名:liulizhen 口令:2001123
◆Weka 包含了什么?
Weka 提供了许多用于数据可视化及预处理的工具(也称作过滤器),包括种类繁多的用于数据集转换的工具等。
所有机器学习算法对输入数据都要求其采用ARFF 格式。
Weka 作为一个公开的知识过去的工作平台,集合了大量能承担数据(知识)挖掘任务的机器学习算法,包括分类,
回归、聚类、关联规则等。
如果想实现自己提出或改进的数据挖掘算法,可以根据Weka 的接口文档,在Weka 中集成自己的算法。
◆Weka 的使用方法
一、是将一种学习方法应用于一个数据集,然后分析其输出,从而更多地了解这些数据(分析数
据集的潜在知识) 。
二、是使用已学习到的模型对新的实例做出分类预测
三、是应用几种不同的学习器,再根据它们的性能表现选择其中一种用来做预测。
在Weka 中将学习方法又称作分类器或学习器,用户可在Weka 互动式界面的菜单中选择一种想要的分类器。许多
分类器带有可调节的参数,这些参数可通过属性列表或对象编辑器进行更改。所有学习器的性能都是通过一个共同的
评估模块进行衡量。
与选择学习器一样,用户也要从菜单中选择能满足或对应该学习器的过滤器(进行数据预处理)。不同的过滤器具
有不同的参数。
Weka 与许多数据分析软件一样,Weka 所处理的数据集是一个二维的表格
这里我们要介绍一下Weka 中的术语。表格里的一个横行称作一个实例(Instance ),相当于统计学中的一个样本,
或者数据库中的一条记录。竖行称作一个属性(Attrbute ),相当于统计学中的一个变量,或者数据库中的一个字段。
这样一个表格叫做数据集,在Weka 看来,呈现了属性之间的一种关系(Relation) 。图中一共有14 个实例,5 个属
性,关系名称为“weather ”。 Weka 存储数据的格式是ARFF (Attribute-Relation File Format )文件,这是一种ASCII
文本文件。
图1 所示的二维表格存储在如下的ARFF 文件中。这也就是Weka 自带的“weather.arff ”文件,在Weka 安装目录
的“data ”子目录下可以找到。
简单说明
在第三列数据 85 90 86 96 ... 是相应的“humidity ”值。其次,最后一个声明的属性被称作class 属性,在分类或
回归任务中,它是默认的目标变量。 \都是以字母开头的字符串
每个实例占一行。实例的各属性值用逗号“, ”隔开。如果某个属性的值是缺失值(missing value ),用问号“?”表
示. 如:@data sunny,85,85,FALSE,no ?,78,90,?,yes ……………………
识别A
文档评论(0)