clementine实用举例参考.doc

  1. 1、本文档共95页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
clementine实用举例参考

Clementine应用图解 作者:数据挖掘技术研究小组 第三部分 应用实例 一、市场购物篮问题分析 1.Business and data understanding 目标:客户细分,发现购买相似的客户群,用人口统计学特征进行描述。 方法:关联规则建模 数据集:baskets 包括字段: Candid:该购物篮使用者的忠诚卡识别字 Value:付款总额 Pmethod:付款方法 持卡者详细的个人资料 sex:性別 homeown:持有信用卡的人是否是有自己的住房 income:收入 age:年齡 购物篮內容: fruitveg 水果蔬菜 freshmeat 新鲜肉品 dairy 牛奶 cannedveg 罐装蔬菜 cannedmeat 罐装肉品 frozenmeal 冷冻肉品 beer 啤酒 wine 酒 softdrink 苏打饮料 fish 鱼 confectionery 糖果 过程: 2.Explore 使用web图和GRI节点来观察客户购买的商品之间的联系。 首先要在type节点中定义变量类型和方向,将candid设置为typeless,个人资料字段设置为none,其他购物篮内容设置为both(即可以作为输入也可作为输出)流程如下: 图3.1.1 GRI输出结果: 图3.1.2 从上面的结果中看出:肉类、啤酒、罐装蔬菜关联性比较大。 提高此web图的门槛值,只留下最强的连接。操作步骤如下: (1)移动工具栏上的滑标,设置只有到达50个的连接才显示出来。 滑标上的工具提示目前的连接强度。 (2)选择显示若连接还是强连接。单击工具条上的黄色箭头按钮,扩展对话方框来显示web输出概要和控制项。 (3)选择显示强/正常/弱的大小。这将启动下面的滑标控制项。 (4)使用滑标或在文本框中指定一个数来设置低于90的弱连接。 (5)使用滑标或在文本框中指定一个数来设置高于100的强连接。 图3.1.3 从web和GRI分析结果来看可以找出三组强连接: beer、cannedveg、frozenmeal wine、confectionery fruitveg、fish 从而可以归纳出三类客户,通过derive节点生成一个标记字段来区别这三类客户,在derive节点中增加一个set类型字段,如下: 更正:上式中3对应得条件应为(frozenmeal == T and beer == T) and (cannedveg == T and beer == T) and (cannedveg == T and frozenmeal == T) 另一种方法:把鼠标放在连线上,线变成红色后点击右键的generate derive node for link 这时就生成了一个二分变量。 由web显示器生成三个二分变量来标记三种客户: 3.model 欲描述这些客户群的特征,我们可以通过关联规则或决策树来观察,增加一个type节点,把关于客户资料的一些变量设置为in,beer_beans_pizza设置为out,其他的为none,通过C5.0节点,运行得到结果,可以看出,属于这类群的客户特征:收入低于16900的女性 4.Model assessment 通过节点analysis来评价模型,可以使用另一个数据集来进行验证模型,这里继续使用原数据来看模型的效果。在analysis节点中选择coincidence matices 最后得到的效果如下: Correct 967 96.7% Wrong 33 3.3% Total 1000 二、客户流失 下面的试验是对客户流失预警的模拟,数据资料来源于05年1月份以前,我们要做的是在试验当月(12月份)根据客户11月份及以前的数据,预测用户1月份的流失状态。 按如下规则抽样:选取在网时长大于90天,11月份mou值大于零,且倒数第二位号码为0的客户10000人。 用户流失状态按如下定义:1月份mou值为零则定义为流失,赋值输出变量为0,否则为不流失,赋值输出变量为1。 1.用节点SQL读取数据并编辑字段属性 我们选用SQL节点从oracle中读取数据。如图1在SQL节点编辑中首先需要建立数据源和clementine的连接,在datas

文档评论(0)

2017meng + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档