(关于关联分析与聚类分析的研究详细说明.docxVIP

(关于关联分析与聚类分析的研究详细说明.docx

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
(关于关联分析与聚类分析的研究详细说明

关联分析与规则归纳分析所谓关联分析,在我们商业研究的一个最常的运用就是购物篮分析。它是根据商家搜集到的某段时间内顾客消费情况的数据,从中找出各个消费品之间的联系,即在海量的消费数据中挑出哪些商品与哪些商品同时被购买的可能性最大,从而为商家作出决策提供重要信息。因此关联分析对于我们来说在研究业态组合,品类落位等方面意义重大。当然关联分析最直接适用的地方就是在超市或百货的商品陈列摆放上,好的陈列和摆放对于销量和业绩的增长是不可小觑的。另外,我们还可以通过规则归纳分析挖掘出最容易消费这些商品的顾客具有什么样的人口统计学特征,从而进行针对性广告设计或者重点营销。 关联分析的方法主要有GRI建模和WEB图形法。 规则归纳分析主要用到C5.0。(一)、GRI 1、目的:从众多的购物篮中找出各个商品之间的关联,确定关联性最强的是哪几类商品。 2、原始数据要求:商家提供出的数据应包括以下几个字段:消费者信息(性别、年龄、家庭、教育、收入等等人口统计学特征,其实可以理解成自变量);每个消费者所购买的商品种类(二分变量,即某一类商品此消费者是否有购买。标明是/否)。例如:ID 性别 年龄 收入 ……. 酒 蔬菜 水果 肉 ……..011 男 25 50000 是 是 否 是012 女 35 45000 是 否 是 否013 男 46 100000 是 是 否 是 3、具体操作:clementine。源节点,导入数据→类型节点→GRI节点即可(具体参数设置略)。如果在输出的过程中不需要哪些信息,还可以在GRI节点前添加“过滤”节点。 4、解释:最终数据会将关联性较强的几种商品罗列出来。比如,买了酒和肉,最有可能买的商品会是水果。如图:(二)、Web 1、目的与原始数据要求同GRI方法的要求。 2、操作过程与GRI相同,只是在类型节点后面添加的是WEB图形节点。 3、数据解释:WEB节点是一种图形节点,其输出结果相对于GRI更直观和形象。如图:它将关联性最强的品类之间的线描绘的最粗。很容易通过拖动悬浮条将其找出。(三)、C5.0通过关联分析我们可以做到找出关联性最强的商品品种,从而进行陈列调整。但如果想要知道最容易购买这几类商品的顾客具有怎样的特征和相似性,我们还需要运用到规则归纳方法,在clementine中C5.0节点即可做到。 操作:将GRI或者WEB执行后的建模导出,作为新节点添加到原来流操作区的类型节点后,然后再在其后添加一个类型节点(参数设置略),最后加上C5.0节点执行,既可以从原始数据的消费者信息中归纳出具备哪些特征的顾客购买以上关联性产品的可能性最大。二、RFM和聚类分析 在商业活动中商家往往希望通过在已有的顾客消费数据资料中找到自己的忠实客户或者希望将顾客划分成几个类别有针对性的进行营销活动,如要达到这样的要求,我们可以通过Clementine的RFM分析和聚类分析做到。(一)、RFM分析 R(recency) F(frequency) M(monetary) 1、目的:从众多客户消费数据中找出排名TopN的优质客户以进行下一步商业操作。 2、原始数据要求:原始数据需要三个字段:客户ID;客户消费的日期;客户消费的金额。(ID是为了最后确定TOPN顾客是谁,消费日期和消费金额是为了转换成R/F/M三个指标) 3.操作过程:创建流,导入数据→填充数据节点(假如数据格式不正确,如日就应填充为2012-03-13)→RFM汇总节点(将同一个ID的历史数据汇成到一行,生成R/F/M指标)→RFM分析节点(特别注意的是加权比重问题,到底RFM三者权重应该如何分配)→过滤节点(有些得分不需要体现而且占用计算机处理时间,如单个客户的R、F、M得分)→排序节点(RFM得分升序或者降序)→样本节点(选择要输出的TOPN)→表结点,执行输出。 4、经过上面的操作,我们便得出了RFM得分最高的TOPN个客户,可以为下一步营销活动提供参考。(二)、聚类分析商家不仅仅希望通过RFM找出优质客户,还希望能进一步通过数据将自己的顾客细分成不同的类别,从而进行更针对性的营销。这样就要用到聚类分析的方法。聚类分析有多种方法,比较常用的有K-means和Two-step两种。K-means和Two-step操作方法大致相同:在RFM分析得出的样本节点处添加一个类型节点,然后添加K-means或者Two-step,执行。或者以新的数据开辟一个新的流进行操作。不同之处在于K算法迅速快捷,但是缺点在于要求数据尽量是连续的数值变量,对于分类变量,虽系统自带调整带会影响结果;K算法再把数据分类时是要求人工设定分成几个组的;K算法易受异常值和极端值的影响。K算法的这些劣势在T算法中可以被改

文档评论(0)

84537592 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档