- 1、本文档共19页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于IBM SPSS Modeler 14.2的数据挖掘
基于 IBM SPSS Modeler14.2的数据挖掘
对某公司销售记录进行分析。该公司在2012.7.13-2010.8.17 进行了发放优惠劵活动,
产生了 1291 条记录,9 个字段,每个字段的意义如表 1 所示。数据可以到下面地址下载:
02/BIweb/eBay_business_case_v3.0.xlsx。
表1 记录中字段的意义
字段名 字段类型 字段意义
Cmpgn_name 标志 活动名,均为Coupon campaign name
Control_yn 标志 购买者类型: 控制:c, 测试:t
Redeemer_YN 标志 是否为重复购买者: 是:y, 否:n
USER_ID 连续 购买者ID
Gender 名义 购买者性别: 女:F,男:M, 未知:U
sge 连续 购买者年龄, age=-99 意味着信息丢失
CK_DATE 连续 购买日期
BUY_QTY 连续 购买商品数量
GMB 连续 购买金额(美元)
下面利用IBM SPSS Modeler 14.2 进行决策树、聚类分析、关联分析和回归分析。
(1)决策树分析
启动IBM SPSS Modeler 14.2 ,导入文件。在工作平台上,添加一个Excel 源节点。双
击该节点,文件类型设为“Excel 2007,2010 (*.xlsx)”,导入文件为源Excel 文件的路径,
按名称DATA 选择工作表,其他默认设置,如图15.87 所示。
图15.87 导入文件
查看源数据。添加一个“表”节点,运行该表节点。如图15.88 所示,共有9 个字段,
1291 条记录。
图15.88 源数据
下面首先利用C5.0 算法进行决策树分析,探讨客户的年龄、性别、单次购买量、单次
购买金额与购买者是否重复购物的关系。
添加“类型”节点。在数据源节点后添加一个类型节点,把gender、age、BUY_QTY 和
GMB 的角色设为数据流的输入,redeemer_yn 的角色设为目标,其他的角色设为无,如图15.89
所示。
图15.89 字段类型设置
添加C5.0 节点,双击C5.0 节点,采用默认设置。如图15.90所示。
图15.90 C5.0 节点设置
点击图15.90 中的“运行”按钮,生成C5.0 模型,右键浏览,如图 15.91 所示。可以
看到生成的决策树,从中可以转化为一些规则,例如当GMB=19 时,购买者不是重复购买者。
但是从业务角度来讲,更加关注哪些客户是重新购买者。可以看出,当每次购买金额 GMB
超过19,且年龄在61 且性别为男或未知时,顾客为重复购买者。
图15.91 C5.0 决策树
预测变量重要性的情况如图 15.92 所示,可以看到年龄、GMB、gender、BUY_QTY 对建
模的影响是逐渐降低的。
图15.92 预测变量重要性
在生成模型之后添加一个分析节点,运行可以得到图15.93 所示的结果。可以看出,决
策树的正确率为95.35%。
图15.93 分析决策树模型的质量
(2 )聚类分析
下面再利用两步聚类算法对源数据进行分析,选择购买者的年龄、性别、单次购买量、
购买金额、是否为重复购买者等字段作为聚类的属性。
在数据源节点后添加一个类型节点,把 redeemer_yn、gender、age、BUY_QTY 和 GMB
的角色设置为输入,其他字段
文档评论(0)