- 1、本文档共30页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库与数据挖掘
实
验
指
导
书
东北石油大学计算机与信息技术系
王浩畅
实验一 Weka实验环境初探
一、实验名称:
Weka实验环境初探
二、实验目的:
通过一个已有的数据集,在weka环境下,测试常用数据挖掘算法,熟悉Weka环境。
三、实验要求
熟悉weka的应用环境。
了解数据挖掘常用算法。
在weka环境下,测试常用数据挖掘算法。
四、实验平台
新西兰怀卡托大学研制的Weka系统
五、实验数据
Weka安装目录下data文件夹中的数据集weather.nominal.arff,weather.arff
六、实验方法和步骤
1、首先,选择数据集weather.nominal.arff,操作步骤为点击Explorer,进入主界面,点击左上角的“Open file...”按钮,选择数据集weather.nominal.arff文件,该文件中存储着表格中的数据,点击区域2中的“Edit”可以看到相应的数据:
选择上端的Associate选项页,即数据挖掘中的关联规则挖掘选项,此处要做的是从上述数据集中寻找关联规则。点击后进入如下界面:
2、现在打开weather.arff,数据集中的类别换成数字。
选择上端的Associate选项页,但是在Associate选项卡中Start按钮为灰色的,也就是说这个时候无法使用Apriori算法进行规则的挖掘,原因在于Apriori算法不能应用于连续型的数值类型。所以现在需要对数值进行离散化,就是类似于将20-30℃划分为“热”,0-10℃定义为“冷”,这样经过对数值型属性离散化
从中可以看出,对于“温度”这一项,一共有12条不同的内容,最小值为64(单位:华氏摄氏度,下同),最大值为85,选择过滤器“choose”按钮,或者在同行的空白处点击一下,即可弹出过滤器选择框,逐级找到 .filters.unsupervised.attribute.Discretize”,点击;若无法关闭这个树,在树之外的地方点击 Explorer”面板即可
现在Choose”旁边的文本框应该显示Discretize -B 10 -M -0.1 -R first-last”。点击这个文本框会弹出新窗口以修改离散化的参数。不打算对所有的属性离散化,只是针对对第个和第个属性,故把attributeIndices右边改成 ,3”。计划把这两个属性都分成3段,于是把bins”改成3”。其它框里不用更改,关于的可以点More”查看。点OK”回到 Explorer”,可以看到和已经被离散化成分类型的属性。若想放弃离散化可以点Undo”。
可以看到temperature属性信息如下显示:
Humidity属性变成如下样式:
3、在Classify,Cluster,Associate选项中分别尝试不同算法。
七、通过实验,掌握Weka的使用
实验二 基于关联规则的信息获取
一、实验名称:
基于关联规则的信息获取
二、实验目的:
通过一个已有的训练数据集,观察训练集中的实例,进行关联信息获取,更好地理解和掌握关联规则算法的基本原理,建立相应的预测模型,然后对新的未知实例进行预测,预测的准确程度来衡量所建立模型的好坏。
三、实验要求
1、熟悉Weka平台
2、掌握关联规则算法
3、对数据进行预处理,利用Weka和不同参数设置进行关联分析,对比结果,得出结论,对问题进行总结。
四、实验平台
新西兰怀卡托大学研制的Weka系统
五、实验数据
1、使用银行对资产进行评估的数据bank-data.arf,数据里有12个属性,分别是id,age,sex,region,income,married,children, car, save_act, current_act, mortgage,pep.共600个实例。
六、实验方法和步骤
1、打开WEKA界面如下:界面中有四个选择Simple CLC, Explorer, Experimenter, KnowledgeFlow。 我们选择Explorer进行实验。
文件格式转化为ARFF的方式。
2、选择Explorer选项,选择Open file打开bank-data.arff数据,打开可以看见数据中的属性,选择属性从右边可以看到它的取值范围
1)CSV换成ARFF格式
将CSV转换为ARFF最迅捷的办法是使用WEKA所带的命令行工具。运行WEKA的主程序,出现GUI后可以点击下方按钮进入相应的模块。我们点击进入“Simple CLI”模块提供的命令行功能。在新窗口的最下方(上方是不能写字的)输入框写上 java weka.core.converters.CSVLoader filename.cs
您可能关注的文档
最近下载
- 兵工科技2014-14.pdf
- DL T 5745-2016 电力建设工程工程量清单计价规范.docx VIP
- 运单填写规范.ppt
- 岗位风险告知卡(挖掘机、装载机司机岗位).docx VIP
- 西师大版四年级上册数学第七单元 三位数除以两位数的除法 测试卷(突破训练)word版.docx
- 党团基本知识学习与社会实践思想报告【4篇】.docx VIP
- 文华财经指标公式源码WH6指标公式期货软件指标画线指标公式.doc
- 征地应急预案共5篇.docx VIP
- 精品解析:2024年天津市部分区中考二模语文试题(解析版).docx VIP
- 2022儿科副护士长竞聘职位PPT简医院儿科副护士长岗位竞聘自我介绍PPT课件(带内容).pptx
文档评论(0)