- 1、本文档共24页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘原理与SPSSClementine应用第24章SPSS_Clementine典型案例分析
数据挖掘原理与SPSS Clementine应用宝典 元昌安 主编 邓 松 李文敬 刘海涛 编著 电子工业出版社 第24章 SPSS Clementine典型案例分析 本章包括: 市场购物篮分析 利用决策树模型挖掘商业信息 利用神经网络对数据进行欺诈探测 24.1市场购物篮分析 本节的例子采用Clementine系统自带的数据 集BASKETS1n。该数据集是超市的“购物篮” (一次购物内容的集合)数据和购买者个人 的背景数据,目标是发现购买物品之间的关 联分析。 24.1.1 定义数据源 24.1.2 理解数据 在建模之前,我们需要了解数据集中都有哪些字段,这些字段如何分 布,它们之间是否隐含着某种相关性等信息。只有了解这些信息后才能决 定使用哪些字段,应用何种挖掘算法和算法参数。这个过程就是一个理解 数据的过程。 24.1.3 准备数据 在这18个字段中,有一些对于挖掘知识来说是没有用的,如cardid等,这时我们就可以把这些暂时没有用到的字段剔除出挖掘过程。这样可以节约挖掘时间和效率。 24.1.4 建模 对字段设置完毕之后,下一步就是选择挖掘所需要的模型,在这里我们会选择使用三种不同的模型来挖掘该数据集。 1. “Apriori”模型节点 2.GRI模型 3.“网络”节点 24.2 利用决策树模型挖掘商业信息 过程如下 : Step1:添加一个“变项文件”节点。 Step2:加入一个“导出”节点。 Step3:对“导出”节点进行设置。 Step4:加入“Healthfood”字段之后,在“导出”节点后再加入一个“类型”节点,用来选择哪些字段用来进行数据挖掘。根据挖掘的目标,可以设置个人信息为“输入”,“Healthfood”设置为“输出” Step5:加入 “C5.0”节点。 Step6:点选“执行(E)” Step7:从“查看器”中查看该结果 输出类型除了选用“决策树”之外,还可以选择“规则集”来显示结果。用“规则集”表示的结果很多时候比“决策树”更加直观、易懂。。 一般生成的决策树都是经过剪枝的。下面看看剪枝程度的高低对挖掘结果的影响。选中“模式”中的“专家”,把“修剪严重性”的值改为“0”,这意味着在挖掘过程中,进行的剪枝程度将很小。模型名称改为“nocut”。 选择“执行(E)”。在右面管理器窗口中选中“模型(S)”,在“nocut”上右击,选择“浏览(B)”,查看生成模型结果 。 利用剪枝程度较高的决策树、剪枝程度低的决策树、规则集生成的结果,可以通过Clementine系统提供的很多模型来进行精度测试。 在这儿选用“分析”节点。生成的结果显示剪枝程度高的模型正确率为93.8% 。同样的原理,测试“nocut” 。剪枝程度低的精度为94.7%。 24.3 利用神经网络对数据进行欺诈探测 背景是关于农业发展贷款的申请。使用虚构的数据来说明如何使用神经网络来检测偏离常态的行为,重点为标识那些异常和需要更深一步调查的记录。要解决的问题是找出那些就农场类型和大小来说申请贷款过多的农场主 。 24.3.1 定义数据源 使用一个“变项文件”节点连接到数据集grantfraudN.db。在“变项文件”节点之后增加一个“类型”节点到数据流中。 24.3.2 理解数据 在建模之前,需要了解数据集中都有哪些字段,这些字段如何分布,它们之间是否隐含着某种相关性等信息。只有了解这些信息后才能决定使用哪些字段,应用何种挖掘算法和算法参数。这个过程就是一个理解数据的过程。 24.3.3 准备数据 首先考虑数据集中可能存在的欺诈类型。 在该数据流中连接一个“条形图”节点并选定字段名为“name”的字段 。 选中“name”字段之后,点击“执行” 。 在数据流区域中添加一个“选择”节点,对该节点进行设置。 以农场大小、主要作物类型、土壤质量等为自变量建立一个回归模型来估计一个农场的收入是多少。 为了发现那些偏离估计值的农场,先生成一个字段――diff,代表估计值与实际值偏离的百分数。在数据流中再增加一个“导出”节点 进行设置。 在数据流中增加一个“直方图”节点。对“直方图”节点进行设置。。 24.3.4 建模 将一个“类型”节点添加到当前数据流中。对数据集中的数据进行设置。 在数据流上添加一个“神经网络”节点。执行此数据流。神经网络经过训练后,会产生一个模型。将产生的模型加入到数据流流中。然后在数据流中再增加一个“散点图”节点,对“散点图”节点进行设置。设置完成之后,执行。 进行深一步的分析。在该数据流中增加
您可能关注的文档
- 招聘面试与操作技巧(55页).ppt
- 拜访客户开场白金句-保险公司销售技巧话术专题早会分享培训模板课件演示文档幻灯片资料.ppt
- 持续高绩效是记录出来的-中国太平保险公司精英早会专题经验分享课件.ppt
- 择友的启示14页-带背景音乐人生激励哲理人生领悟幻灯片投影片课件精品专题素材.ppt
- 挖掘机销售经理2012年上半年总结报告.ppt
- 排版与制作技巧-如何在演示中使用视觉效果.ppt
- 接触法制硫酸BDD3B4A5B7A.ppt
- 控烟模版课件.ppt
- 控烟课件-PowerPointPresentation.ppt
- 推销产品与服务英文课件UndertakingMarketingActivities.ppt
- 2024年湖南省高考英语试卷(含答案解析)+听力音频+听力原文.docx
- 2024年江西省高考英语试卷(含答案解析)+听力音频+听力原文.docx
- 2024年安徽省高考英语试卷(含答案解析)+听力音频+听力原文.docx
- 2024年福建省高考英语试卷(含答案解析)+听力音频+听力原文.docx
- 2024年广东省高考英语试卷(含答案解析)+听力音频+听力原文.docx
- 2024年河北省高考英语试卷(含答案解析)+听力音频+听力原文.docx
- 2024年河南省高考英语试卷(含答案解析)+听力音频.docx
- 2024年湖北省高考英语试卷(含答案解析)+听力音频+听力原文.docx
- 2024年湖南省高考英语试卷(含答案解析)+听力音频+听力原文.docx
- 2024年江苏省高考英语试卷(含答案解析)+听力音频+听力原文.docx
文档评论(0)