数据仓库与数据挖掘实验指导书--王浩畅解读.doc

数据仓库与数据挖掘实验指导书--王浩畅解读.doc

  1. 1、本文档共30页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库与数据挖掘 实 验 指 导 书 东北石油大学计算机与信息技术系 王浩畅 实验一 Weka实验环境初探 一、实验名称: Weka实验环境初探 二、实验目的: 通过一个已有的数据集,在weka环境下,测试常用数据挖掘算法,熟悉Weka环境。 三、实验要求 熟悉weka的应用环境。 了解数据挖掘常用算法。 在weka环境下,测试常用数据挖掘算法。 四、实验平台 新西兰怀卡托大学研制的Weka系统 五、实验数据 Weka安装目录下data文件夹中的数据集weather.nominal.arff,weather.arff 六、实验方法和步骤 1、首先,选择数据集weather.nominal.arff,操作步骤为点击Explorer,进入主界面,点击左上角的“Open file...”按钮,选择数据集weather.nominal.arff文件,该文件中存储着表格中的数据,点击区域2中的“Edit”可以看到相应的数据: 选择上端的Associate选项页,即数据挖掘中的关联规则挖掘选项,此处要做的是从上述数据集中寻找关联规则。点击后进入如下界面: 2、现在打开weather.arff,数据集中的类别换成数字。 选择上端的Associate选项页,但是在Associate选项卡中Start按钮为灰色的,也就是说这个时候无法使用Apriori算法进行规则的挖掘,原因在于Apriori算法不能应用于连续型的数值类型。所以现在需要对数值进行离散化,就是类似于将20-30℃划分为“热”,0-10℃定义为“冷”,这样经过对数值型属性离散化 从中可以看出,对于“温度”这一项,一共有12条不同的内容,最小值为64(单位:华氏摄氏度,下同),最大值为85,选择过滤器“choose”按钮,或者在同行的空白处点击一下,即可弹出过滤器选择框,逐级找到 .filters.unsupervised.attribute.Discretize”,点击;若无法关闭这个树,在树之外的地方点击 Explorer”面板即可 现在Choose”旁边的文本框应该显示Discretize -B 10 -M -0.1 -R first-last”。点击这个文本框会弹出新窗口以修改离散化的参数。不打算对所有的属性离散化,只是针对对第个和第个属性,故把attributeIndices右边改成 ,3”。计划把这两个属性都分成3段,于是把bins”改成3”。其它框里不用更改,关于的可以点More”查看。点OK”回到 Explorer”,可以看到和已经被离散化成分类型的属性。若想放弃离散化可以点Undo”。 可以看到temperature属性信息如下显示: Humidity属性变成如下样式: 3、在Classify,Cluster,Associate选项中分别尝试不同算法。 七、通过实验,掌握Weka的使用 实验二 基于关联规则的信息获取 一、实验名称: 基于关联规则的信息获取 二、实验目的: 通过一个已有的训练数据集,观察训练集中的实例,进行关联信息获取,更好地理解和掌握关联规则算法的基本原理,建立相应的预测模型,然后对新的未知实例进行预测,预测的准确程度来衡量所建立模型的好坏。 三、实验要求 1、熟悉Weka平台 2、掌握关联规则算法 3、对数据进行预处理,利用Weka和不同参数设置进行关联分析,对比结果,得出结论,对问题进行总结。 四、实验平台 新西兰怀卡托大学研制的Weka系统 五、实验数据 1、使用银行对资产进行评估的数据bank-data.arf,数据里有12个属性,分别是id,age,sex,region,income,married,children, car, save_act, current_act, mortgage,pep.共600个实例。 六、实验方法和步骤 1、打开WEKA界面如下:界面中有四个选择Simple CLC, Explorer, Experimenter, KnowledgeFlow。 我们选择Explorer进行实验。 文件格式转化为ARFF的方式。 2、选择Explorer选项,选择Open file打开bank-data.arff数据,打开可以看见数据中的属性,选择属性从右边可以看到它的取值范围 1)CSV换成ARFF格式 将CSV转换为ARFF最迅捷的办法是使用WEKA所带的命令行工具。运行WEKA的主程序,出现GUI后可以点击下方按钮进入相应的模块。我们点击进入“Simple CLI”模块提供的命令行功能。在新窗口的最下方(上方是不能写字的)输入框写上 java weka.core.converters.CSVLoader filename.cs

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档