- 1、本文档共10页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Clementine作业
数据挖掘决策树分析报告
经济管理学院 管理科学与工程专业 1206122353 麻小龙
问题:现搜集整理到某大型商场的顾客和商品的相关信息,通过SPSS Clementine软件建立决策树模型进行数据挖掘分析,找到什么类型的顾客将购买什么类型的商品(比如:是否购买健康食品),顾客在购买某种商品的时候是否还有可能购买其他某几种商品。
解决思路:在处理该问题中,我使用了关联分析、决策树分析,具体分析解决过程如下:
关联分析是指如果两个或者多个事物之间存在一定的联系,那么其中一个事物就可能通过其他事物进行预测。它的目的就是挖掘数据之间隐藏的相互关系。
本题是针对某大型商场的购物资料对数据进行分析。为了找到商品在出售时是否存在某种联系,我们将使用关联分析方法;另一方面,为了得到购买某种商品的顾客特征,我们将采用决策树的方法对顾客分类。
步骤一:读入数据。
该模型的数据存储为BSAKETS1n,我们在选择面板选择可变文件节点作为数据读入节点,双击该结点进行编辑,加入数据存储文件。如下图所示:
步骤二:关联分析从数据源读入数据后,接下来就需要根据要进行的分析对字段进行设置。关联分析是分析多个量之间的关系,所以需要分析的字段既设置为模型的输入又设置为模型的输出,对字段的设置采用类型结点。
2.1 设置数据字段格式。
在选择面板选择类型结点,并将其连接到数据流中。因为我们的分析是对商品进行的,与顾客的个人信息无关,所以在类型结点中将顾客个人信息的字段的方向设置为无,其他商品字段的方向设置为双向。同时我们也将读入字段类型和字段取值。如下图所示:
2.2 生成关联分析数据流。
在选择面板中的建模目录中我们选择GRI结点加入到数据流中。执行该数据流,它的结果将在管理器的模型栏中以与模型同名的结点显示,右键选择浏览该结点,如下图所示:
分析结果如下:该结果数据显示了各种商品之间的关系,这个表的每一行表明了购买某种商品的时候还有哪些商品有被购买的可能性,它是基于关联分析中的支持度和置信度来分析的。支持度越大,说明同时被购买的可能性越大。比如我们就第一行来分析,支持度为3.0%,置信度为96.67,顾客在购买cannedveg时有可能会同时购买freshmeat,frozenmeal,beer这三种商品。其他行的相关信息,我们用同样的方法进行分析得出结果。
步骤三:图形化显示各个商品之间的关系我们除了用模型外,还可以用图形目录下的网络结点。选择网络结点将其连入数据流中,此时对网络结点的设置如下:
在plot面板中选择“仅选择真值标志”栏,这可以帮助我们简化输出网络,执行结果如下图所示:其中该图中各色的结点代表了不同种类的商品,任意两点之间连线越策表明这两点之间的关系越强烈,这也正说明购买其中某件商品时,另外一个很有可能也会被同时购买。我们还可以通过改变浮标值设置不同的显示,当浮标值越大时候网络图将显示关系越强烈关系的点。如下图所示:
分析结果如下:就上述网状图,各个节点之间有连线说明两线两端的商品在购买时可能被购买。连线的粗细也表面关系的密切程度,即同时被购买的可能性的大小。在本问题中,我们分析当浮标设置在122时候这种情况,此时购买fish时很大可能会购买fruitveg,购买confectionery时很有可能购买wine,其中cannedveg,beer,frozenmeal这三种商品时因为三者之间存在密切联系,所以购买其中一种时,其他两种被购买的可能性很大。同样,当浮标的值改变时,我们可以用同样的方法来分析数据之间的关系。
步骤四:用决策树来分类分析。
决策树(decision tree)一般都是自上而下生成的。每个决策或者事件(自然状态)都可能引出两个或者多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树。决策树就是将决策过程各个阶段之间的结构绘制成一张箭线图。
本问题中我们运用决策树对购买某样商品的客户进行分类,通过分析某个顾客的个人信息判断怎样的人将购买健康食品。在决策树建模时我们需要设置一个导出结点,模型根据样本在该结点的不同取值构造出决策树。
4.1 将导出结点连接到类型结点,如下图所示:
4.2 设置导出结点的属性,如下图所示:
这里我们命名该结点为Health_food,在导出为栏中我们选择标志,这表面新生成的Health_food字段将存储两值类型的数据。在真值和假值栏分别填写新字段的两种数据值,其中真值表示当条件满足时该字段的值,假值表示当条件不满足时该字段的值。
对判断条件的设置我们可以通过单击True when栏右边的按钮进行。在表达式构建器中我们可以选择数据的任一字段,通过设计表达式建立结果为真时的条件。这里我们设置表达式为fruitveg==’T’ and
文档评论(0)