741WEKA中的术语属性声明-课程中心.PPT

  1. 1、本文档共52页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
741WEKA中的术语属性声明-课程中心

数据准备 CSV - ARFF 把Excel里的数据转存到arff文件里。再将CSV转换为ARFF办法有三种: 2. Arff Viewer 在WEKA中提供了一个“Arff Viewer”模块,我们可以用它打开一个CSV文件将进行浏览,然后另存为ARFF文件。 7.4.3 ARFF文件格式的转化 数据准备 CSV - ARFF 把Excel里的数据转存到arff文件里。再将CSV转换为ARFF办法有三种: 3. Explorer 进入“Explorer”模块,从上方的按钮中打开CSV文件然后另存为ARFF文件亦可。 7.4.3 ARFF文件格式的转化 数据准备 Explorer界面 1 2 3 4 5 6 7 8 使用WEKA “Explorer”界面打开“weather.numeric. arff”文件。根据不同的功能可以把这个界面分成8个区域。 7.4.4 WEKA的使用 区域1的几个选项卡是用来切换不同的挖掘任务面板。 区域2是一些常用按钮。包括打开数据,保存及编辑功能。 区域3中“Choose”某个“Filter”,可以实现筛选数据或者对数据进行某种变换。数据预处理主要就利用它来实现。 区域4展示了数据集的一些基本情况。 区域5中列出了数据集的所有属性。“Remove”可以删除某些属性,删除后可利用区域2的“Undo”按钮找回。区域5上方的一排按钮是用来实现快速勾选的。 在区域5中选中某个属性,则在区域6中会出现关于这个属性的摘要。注意对于数值属性和分类属性,摘要的方式是不一样的。图中显示的是对标称属性“outlook”的摘要。 数据准备 Explorer界面 7.4.4 WEKA的使用 区域7是区域5中选中属性的直方图。若数据集的最后一个属性(我们说过这是分类或回归任务的默认目标变量)是分类变量(这里的“play”正好是),直方图中的每个长方形就会按照该变量的比例分成不同颜色的段。要想换个分段的依据,在区域7上方的下拉框中选个不同的分类属性就可以了。下拉框里选上“No Class”或者一个数值属性,则直方图会变为黑白。 区域8是状态栏,可以查看Log以判断是否有错。右边的weka鸟在动的话说明WEKA正在执行挖掘任务。右键点击状态栏还可以执行JAVA内存的垃圾回收。 数据准备 Explorer界面 7.4.4 WEKA的使用 有些算法,只能处理所有的属性都是标称型的情况。这就需要对数值型的属性进行离散化。在这个数据集中有2个变量是数值型的,分别是“temperature”和“humidity”。 离散化这两个属性可以借助“Discretize”这个Filter来完成。在区域2中点“Choose”,出现一棵“Filter树”,逐级找到:weka – filters – unsupervised – attribute - Discretize。此时“Choose”旁边的文本框会显示该filter的各种参数。可点击该文本框以修改参数。 因只更改第2个和第3个属性(见区域5属性名左边的数字),故把attributeIndices右边改成“2,3”。计划把这两个属性分成3段,把“bins”改成“3”。其它参数不动。点“OK”回到“Explorer”界面,此时可见 “temperature”和“humidity”已经被离散化成标称型的属性。 数据准备 预处理 7.4.4 WEKA的使用 可手动替换自动产生的标识名。 离散处理后 数据准备 预处理 7.4.4 WEKA的使用 此外, 在weka – filters – unsupervised – attribute 里还有许多属性类型转换的filters,比如: NumericToNominal StringToNominal NominalToString …… 添加一个公式产生的新属性,新属性的值是“temperature”除以“humidity” :weka – filters – unsupervised – attribute – AddExpression 双击文本框修改参数。 数据准备 预处理 7.4.4 WEKA的使用 * 生 物 信 息 学 Bioinformatics 巩晶 癌症研究中心 山东大学 医学院 2015.11.04 #我的最美蛋白质#已进入投票环节。海选出45个参赛作品。 请大家登陆课程中心,点击“待投票问卷”投票! 注意:每人最多投三票,多投无效! 投票截止时间为2015年12月10日24:00,颁奖时间为2015年12月11日课上。 第七章 数据挖掘 (1)数据挖掘是从存放在数据集中的大量数据里挖掘出有趣知识的过程。 (2)数据挖掘,又称为数据库中知识发现(Knowledge Discov

文档评论(0)

2105194781 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档