基于IBM SPSS Modeler 14.2的数据挖掘.pdf

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于IBM SPSS Modeler 14.2的数据挖掘

基于 IBM SPSS Modeler14.2的数据挖掘 对某公司销售记录进行分析。该公司在2012.7.13-2010.8.17 进行了发放优惠劵活动, 产生了 1291 条记录,9 个字段,每个字段的意义如表 1 所示。数据可以到下面地址下载: 02/BIweb/eBay_business_case_v3.0.xlsx。 表1 记录中字段的意义 字段名 字段类型 字段意义 Cmpgn_name 标志 活动名,均为Coupon campaign name Control_yn 标志 购买者类型: 控制:c, 测试:t Redeemer_YN 标志 是否为重复购买者: 是:y, 否:n USER_ID 连续 购买者ID Gender 名义 购买者性别: 女:F,男:M, 未知:U sge 连续 购买者年龄, age=-99 意味着信息丢失 CK_DATE 连续 购买日期 BUY_QTY 连续 购买商品数量 GMB 连续 购买金额(美元) 下面利用IBM SPSS Modeler 14.2 进行决策树、聚类分析、关联分析和回归分析。 (1)决策树分析 启动IBM SPSS Modeler 14.2 ,导入文件。在工作平台上,添加一个Excel 源节点。双 击该节点,文件类型设为“Excel 2007,2010 (*.xlsx)”,导入文件为源Excel 文件的路径, 按名称DATA 选择工作表,其他默认设置,如图15.87 所示。 图15.87 导入文件 查看源数据。添加一个“表”节点,运行该表节点。如图15.88 所示,共有9 个字段, 1291 条记录。 图15.88 源数据 下面首先利用C5.0 算法进行决策树分析,探讨客户的年龄、性别、单次购买量、单次 购买金额与购买者是否重复购物的关系。 添加“类型”节点。在数据源节点后添加一个类型节点,把gender、age、BUY_QTY 和 GMB 的角色设为数据流的输入,redeemer_yn 的角色设为目标,其他的角色设为无,如图15.89 所示。 图15.89 字段类型设置 添加C5.0 节点,双击C5.0 节点,采用默认设置。如图15.90所示。 图15.90 C5.0 节点设置 点击图15.90 中的“运行”按钮,生成C5.0 模型,右键浏览,如图 15.91 所示。可以 看到生成的决策树,从中可以转化为一些规则,例如当GMB=19 时,购买者不是重复购买者。 但是从业务角度来讲,更加关注哪些客户是重新购买者。可以看出,当每次购买金额 GMB 超过19,且年龄在61 且性别为男或未知时,顾客为重复购买者。 图15.91 C5.0 决策树 预测变量重要性的情况如图 15.92 所示,可以看到年龄、GMB、gender、BUY_QTY 对建 模的影响是逐渐降低的。 图15.92 预测变量重要性 在生成模型之后添加一个分析节点,运行可以得到图15.93 所示的结果。可以看出,决 策树的正确率为95.35%。 图15.93 分析决策树模型的质量 (2 )聚类分析 下面再利用两步聚类算法对源数据进行分析,选择购买者的年龄、性别、单次购买量、 购买金额、是否为重复购买者等字段作为聚类的属性。 在数据源节点后添加一个类型节点,把 redeemer_yn、gender、age、BUY_QTY 和 GMB 的角色设置为输入,其他字段

文档评论(0)

yaocen + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档