大型超市“购物篮”分析.docVIP

下载本文档

25
0
约 6页
2016-04-15 发布于安徽
举报
版权申诉

大型超市“购物篮”分析.doc

1、本文档共6页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大型超市“购物篮”分析.doc

问题重述作为超市的经理，经常关心的问题是顾客的购物习惯。他们想知道：“什么商品组或集合顾客多半会在一次购物时同时购买？”。现在假设你们是某超市的市场分析员，已经掌握了该超市近一个星期的所有顾客购买物品的清单和相应商品的价格，需要你们给超市经理一个合理的“购物篮”分析报告，并提供一个促销计划的初步方案。问题一：附件1中的表格数据显示了该超市在一个星期内的4717个顾客对999种商品的购买记录，对数据进行分析，试建立一种数学模型，使该模型能定量表达超市中多种商品间的关联关系的密切程度。问题二：根据问题1建立的模型，通过一种快速有效的方法从附件1中的购买记录中分析出哪些商品是最频繁被同时购买的，找到的最频繁被同时购买的商品数量越多越好。问题三：附件2给出了这999中商品的对应的利润，根据在问题1、问题2中建立的模型，设定一种初步的促销方案，使超市的效益进一步增大。二、模型的假设 1、假设各个商品的利润保持不变。 2、假设表格中的数据能真实地反映当地消费者的购物情况。 3、假设短时间内商品的销售情况维持稳定，不会出现大幅波动。符号解释说明 si 组合i的支持度 c(A=B) 规则A=B的置信度 c(B=A 规则B=A的置信度 ci ci smin 最小支持度 cmin 最小置信度 μ 关联密切系数 H 促销系数四、问题分析本题是关于大型超市“购物篮”的分析问题，涉及到数据挖掘、关联规则等相关问题。本题的三个问题是层层递进的关系，要求通过对商品购买数据的分析，找到关联程度较高且购买次数较高的商品，最后设计出合理的超市促销方案。问题一，由于购物篮分析是关联规则挖掘的一个典型案例，因此我们采用一种最有影响的挖掘布尔关联规则[1]频繁项集的算法——Apriori算法[2-3]。利用其基本思想，进行了商品两种之间的支持度和置信度计算，在定义最小支持度和最小置信度后，进行筛选得到关联规则集。为定量地表达超市中多种商品间的关联关系的密切程度，本文引入一个关联密切系数进行衡量分别对12个组合求解平均置信度,进而得到该组的关联密切系数。由此认为，关联密切系数越大的商品组合，其关联关系密切程度较高。问题二，在得到商品两种关联数据的基础上，仅考虑商品支持度的大小，求得在一定最小支持度下被频繁地同时购买的商品组合。同时为使商品数量尽量多，我们在两种组合的情况下延伸至三种组合，四种组合??以此得到尽可能多的商品被频繁同时购买的信息，尽量靠近最频繁被同时购买且商品数量越多的双重目标。问题三，在结合商品利润的条件下，考虑两种组合中各商品的利润、支持度和置信度，分别计算出三者的乘积再求和，记为促销系数H，并以此作为衡量此组合商品是否进行促销的标准。当结果较高时，我们就采取就近摆放、打折促销、消费送礼等捆绑销售方式式得到一种促销方案，在方便顾客的购买的同时，增加消费者对该超市的有好感和信任度，最终使得超市的效益进一步增大。五、模型的建立和求解模型一：基于Apriori算法的关联规则挖掘[4]模型 1.模型的准备设: I={ i1,i2......,im }是所有项目的集合. D是所有事务的集合(即数据库), 每个事务T是一些项目的集合, T包含在D中, 每个事务可以用唯一的标识符TID来标识.设X为某些项目的集合,如果X包含在T中,则称事务T包含X,关联规则则表示为如下形式(X包含在T)=(Y包含在T)的蕴涵式,这里X包含在I中, Y包含在I中,并且X∧Y=Φ.其意义在于一个事务中某些项的出现,可推导出另一些项在同一事务中也出现(为简单化,将(X包含在T)=(Y包含在T)表示为X=Y,这里,‘=’ 称为‘关联’操作，X称为关联规则的先决条件,Y称为关联规则的结果). 事务数据库D中的规则X=Y是由支持度s（support）和置信度c(confidence)约束,置信度表示规则的强度, 支持度表示在规则中出现的频度。数据项集X的支持度s(X)是D中包含X的事务数量与D的总事务数量之比, 但为下文便于叙述, 数据项集X的支持度是用数据库D中包含X的数量来表示; 规则X=Y的支持度s定义为: 在D中包含X∪Y的事务所占比例为s%, 表示同时包含X和Y的事务数量与D的总事务量之比。用该项集出现的次数除以TID总数即可得到，用如下公式表示： Support(X)=Count(X)/Count(TID) 规则X=Y的置信度c定义为: 在D中,c%的事务包含X的同时也包含Y, 表示D中包含X的事务中有多大可能性包含Y. 依据所求的频繁项集，及所求得的支持度，运用如下公式求解： Confidence(X=Y)=Support(X