- 1、本文档共4页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
湖南工程学院数据挖掘实验报告
专业班级姓名学号同组实验人员
统计1202周磊05
实验日期2015.11.059、10节指导老师刘劲光评分
实验名称数据的读入与预处理
1.熟悉Clementine软件的安装及操作流程;
实验目的
2.学会不同数据格式在软件中的读取;
3.学会数据的预处理,如数据的合并,变量值的重新计算,缺失值得替补
等操作
实验步骤:
1.各个格式数据的数据的导入:
打开clementine,在节点工具箱窗口,点击sources选项卡,存放各种外部数据读
到clementine中的节点工具。将相对应的数据节点拖到数据流编辑区域,然后双击打开
或者右键点击Edit,可以看到参数设置窗口有file、Date、Filter、type,在file中指定所
读入文本文件所在文件夹,在Date选项卡中指定读入数据的基本类型,在filter选项卡
中指定读数据不读取哪些变量并可重新修改变量名,在type选项中指定所读数据的变量
类型,并对变量的缺省值和取值合理性进行检查。当对与原数据文件不需要进行任何修
改操作时,可直接将其拖入数据流编辑窗口。
图1
2.数据的合并:
数据的纵向合并,将需要的2Excel个数据文件拖入数据编辑流窗口,在节点工具窗
口中点击RecordOps选项卡中的Append节点,并将其连接至Excel节点后面,右键点
击Edit选项。点击Append,在Matchfieldsby中点击Position,然后点击Ok,将Table
节点添加在Append节点后,执行数据流,得到结果。
图2
数据的横向合并,将需要的2Excel个数据文件拖入数据编辑流窗口,在节点工具
窗口中点击RecordOps选项卡中的Merge节点,并将其连接至Excel节点后面,右键点
击Edit选项。点击Merge,将左边框的月份移动到右边框,然后点击Ok,将Table节点
添加在Merge节点后,执行数据流,得到结果
图3
3变量值的重新计算:
把数据CCSS_Sample.sav拖入数据流编窗口,将其连接FieldOps选项卡中的Filler
节点进行连接,然后在接连Favorite中的Type节点,右键编辑Filler节点,在Fillinfilelds
中选入index1变量,Replace选择Always,点击计算器进去CLEM输入面板,输入函数,
在数据流中添加一个Table节点就能看到重新计算后的数值了。
图4
4数据的缺失值替补:
将数据CCSS_Sample.sav拖入数据流编辑窗口,在后面添加个Table节点,执行数
据,发现a3a_2数据有多个异常值,进行数据异常值的修改,将Table节点换成DataAudit
节点,执行数据流,在Quality中找到a3a_2数据,发现有多个异常值,在ImputeMissing
中选取BlankNullValue,选中这一个变量,点击Generate,Miss,,ValuesSuperNode,然后
选择Selectedfieldsonly,回到数据流窗口,将出现的MissingImputeValue节点至于
CCSS_Sample.sav节点后,最后添加个Table节点执行数据流,发现异常值消除。
文档评论(0)