- 1、本文档共52页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据准备把里的数据转存到文件里再将转换为办法有三种在中提供了一个模块我们可以用它打开一个文件将进行浏览然后另存为文件文件格式的转化数据准备把里的数据转存到文件里再将转换为办法有三种进入模块从上方的按钮中打开文件然后另存为文件亦可文件格式的转化数据准备界面使用界面打开文件根据不同的功能可以把这个界面分成个区域的使用区域的几个选项卡是用来切换不同的挖掘任务面板区域是一些常用按钮包括打开数据保存及编辑功能区域中某个可以实现筛选数据或者对数据进行某种变换数据预处理主要就利用它来实现区域展示了数据集的一些
数据准备 CSV - ARFF 把Excel里的数据转存到arff文件里。再将CSV转换为ARFF办法有三种: 2. Arff Viewer 在WEKA中提供了一个“Arff Viewer”模块,我们可以用它打开一个CSV文件将进行浏览,然后另存为ARFF文件。 7.4.3 ARFF文件格式的转化 数据准备 CSV - ARFF 把Excel里的数据转存到arff文件里。再将CSV转换为ARFF办法有三种: 3. Explorer 进入“Explorer”模块,从上方的按钮中打开CSV文件然后另存为ARFF文件亦可。 7.4.3 ARFF文件格式的转化 数据准备 Explorer界面 1 2 3 4 5 6 7 8 使用WEKA “Explorer”界面打开“weather.numeric. arff”文件。根据不同的功能可以把这个界面分成8个区域。 7.4.4 WEKA的使用 区域1的几个选项卡是用来切换不同的挖掘任务面板。 区域2是一些常用按钮。包括打开数据,保存及编辑功能。 区域3中“Choose”某个“Filter”,可以实现筛选数据或者对数据进行某种变换。数据预处理主要就利用它来实现。 区域4展示了数据集的一些基本情况。 区域5中列出了数据集的所有属性。“Remove”可以删除某些属性,删除后可利用区域2的“Undo”按钮找回。区域5上方的一排按钮是用来实现快速勾选的。 在区域5中选中某个属性,则在区域6中会出现关于这个属性的摘要。注意对于数值属性和分类属性,摘要的方式是不一样的。图中显示的是对标称属性“outlook”的摘要。 数据准备 Explorer界面 7.4.4 WEKA的使用 区域7是区域5中选中属性的直方图。若数据集的最后一个属性(我们说过这是分类或回归任务的默认目标变量)是分类变量(这里的“play”正好是),直方图中的每个长方形就会按照该变量的比例分成不同颜色的段。要想换个分段的依据,在区域7上方的下拉框中选个不同的分类属性就可以了。下拉框里选上“No Class”或者一个数值属性,则直方图会变为黑白。 区域8是状态栏,可以查看Log以判断是否有错。右边的weka鸟在动的话说明WEKA正在执行挖掘任务。右键点击状态栏还可以执行JAVA内存的垃圾回收。 数据准备 Explorer界面 7.4.4 WEKA的使用 有些算法,只能处理所有的属性都是标称型的情况。这就需要对数值型的属性进行离散化。在这个数据集中有2个变量是数值型的,分别是“temperature”和“humidity”。 离散化这两个属性可以借助“Discretize”这个Filter来完成。在区域2中点“Choose”,出现一棵“Filter树”,逐级找到:weka – filters – unsupervised – attribute - Discretize。此时“Choose”旁边的文本框会显示该filter的各种参数。可点击该文本框以修改参数。 因只更改第2个和第3个属性(见区域5属性名左边的数字),故把attributeIndices右边改成“2,3”。计划把这两个属性分成3段,把“bins”改成“3”。其它参数不动。点“OK”回到“Explorer”界面,此时可见 “temperature”和“humidity”已经被离散化成标称型的属性。 数据准备 预处理 7.4.4 WEKA的使用 可手动替换自动产生的标识名。 离散处理后 数据准备 预处理 7.4.4 WEKA的使用 此外, 在weka – filters – unsupervised – attribute 里还有许多属性类型转换的filters,比如: NumericToNominal StringToNominal NominalToString …… 添加一个公式产生的新属性,新属性的值是“temperature”除以“humidity” :weka – filters – unsupervised – attribute – AddExpression 双击文本框修改参数。 数据准备 预处理 7.4.4 WEKA的使用 * 生 物 信 息 学 Bioinformatics 巩晶 癌症研究中心 山东大学 医学院 2015.11.04 #我的最美蛋白质#已进入投票环节。海选出45个参赛作品。 请大家登陆课程中心,点击“待投票问卷”投票! 注意:每人最多投三票,多投无效! 投票截止时间为2015年12月10日24:00,颁奖时间为2015年12月11日课上。 第七章 数据挖掘 (1)数据挖掘是从存放在数据集中的大量数据里挖掘出有趣知识的过程。 (2)数据挖掘,又称为数据库中知识发现(Knowledge Discov
您可能关注的文档
- 93 虚拟仪器.ppt
- 100学年度工读实习学生租屋环境安全职前讲习 - 学生事务处 - 明志 .ppt
- 101 年专门职业及技术人员考试试题代号:80140 共 - 实力建筑资讯网.pdf
- 101年度haccp食品安全管制系统实务训练简章 - 国立宜兰大学个人 .doc
- 100年绩优人员优良事迹简介 - 人事室.ppt
- 102年度- 国科会专题研究计画 - 国立台中教育大学国际及两岸事务暨 .doc
- 103 年特种考试交通事业铁路人员考试试题 - 保成网路书局.pdf
- 103下【自然】单元回顾 六年级第三单元 - tpedutw.ppt
- 104_第五次课发会议纪录.doc
- 104学年度通识课程必修学分 - 明道大学.doc
- 精品解析:山东省济南市2023-2024学年高一下学期7月期末学习质量检测数学试题(解析版).docx
- 精品解析:山东省济宁市邹城市2023-2024学年高一下学期4月期中考试数学试题(解析版).docx
- 精品解析:山东省菏泽市2023-2024学年高一下学期期中考试数学试题(B)(解析版).docx
- 精品解析:山东省潍坊市部分学校2023-2024学年高一下学期第二次月考数学试题(原卷版).docx
- 精品解析:山东省烟台市中英文学校2023-2024学年高一下学期期末检测数学试题(解析版).docx
- 精品解析:山东省日照市2023-2024年高一下学期期末校级联合考试数学试题(解析版).docx
- 精品解析:山东省实验中学2023-2024学年高一下学期4月期中考试数学试题(解析版).docx
- 精品解析:山东滨州惠民县2023-2024学年高一下学期期中阶段性质量检测数学试题(原卷版).docx
- 精品解析:山东省泰安肥城市2023-2024学年高一下学期期中考试数学试题(解析版).docx
- 精品解析:山东省济宁市兖州区2023-2024学年高一下学期期中质量检测数学试题(解析版).docx
文档评论(0)