- 1、本文档共44页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
关联规则--CARMA Continuous Association Rule Mining Algorithm 报告人:徐启元 指导教师:谢邦昌 日期:2007年11月30日 目录 关联规则基本概念 CARMA算法简介 CARMA模块的基本概念 案例分析及Clementine操作步骤 购物篮分析----Tabular类型数据 网络日志分析----Transactional类型数据 值得注意的问题 CARMA算法原理(参考) 关联规则算法简介 关联分析的目的是寻找数据项间的相关性.常用技术: 关联规则:即寻找在同一个事件中出现的不同项目的相关性 例如:找出顾客经常同 时购买哪些商品。网民 浏览的网页之间有没有 什么关联性。 CARMA算法简介 CARMA模块中的基本概念 AntecedentConsequent 它们指的是规则的前项和后项。 Instances 对于每一条规则,它的 Instances值指的是所有 记录中包含该规则的 antecedent的记录的数量。 CARMA模块中的基本概念 Support 它的定义和instances很接 近,不同的是support描述 的不是数量,而是比例。 Rule Support 它在Support定义的基础 上更进一步,它指的是 所有记录中既包含某规 则的antecedent,又包含 consequent的记录所占 的比例。 CARMA模块中的基本概念 Confidence Confidence = Rule Support / Support 该指标反映的是规则预测的 准确程度。 Deployability Deployability = Support – Rule Support 它的作用与confidence类似。 CARMA模块中的基本概念 Lift 在已知某规则的 consequent发生 的先验概率的情况 下,某规则的Lift 被定义为Confidence 和该先验概率的比 率值。 源数据格式 CARMA模块能够处理一下两种格式的数据 Tabular数据格式 Transactional数据格式 案例研究之购物篮分析 数据准备 使用数据为clementine自带的Baskets1n数据集; 该数据集样本量为1000,每笔交易包含了顾客的卡号、性别、年龄、收入、付款方式等一系列个人信息,以及其购买的各种食品清单; 该数据集为Tabular格式的数据。 研究目的 为超市货架的摆放提供科学的依据; 为超市商品促销决策提供支持。 案例研究 购物篮分析 加入type模块对变量类型进行设置。 购物篮分析 将CARMA 模块加入 流中,并双 击打开进行 参数设置。 购物篮分析 对Model选项卡进行设置。修改Rule Support、Rule Confidence以及Rule Size的大小。 购物篮分析 对Expert选项卡进行设置,如果对CARMA算法比较了解的用户,可以对该选项卡进行设定以获得使CARMA模块具有更好的性能。 购物篮分析 执行后建 立的模型 会 显示在 Canvas 内。 购物篮分析 置信度(Confidence)最高的前三个规则: 购物篮分析 CARMA模型可以 直接放在流中对 数据进行打分预 测(scoring)。 在打分之前可以 双击模型打开 Settings选项卡进 行相关的参数设 置。 购物篮分析 对CARMA模型设置好了以后就可以将CARMA 模型加入流中对数据进行预测了,本文仅用一 条规则进行预测,结果存入表中(见下页)。 购物篮分析 购物篮分析 用CARMA模型预测顾客的购买行为 购物篮分析 除了直接使用生成的CARMA模型进行预测 外,还有一种预测方式即使用Rule Set。 案例研究之网络日志分析 数据准备 使用数据为某网站五天的访问日志; 该数据集记录数为173665,每行记录对应用户对服务器的一个页面请求,记录了用户IP地址、请求时间、请求页面URL、访问协议、请求状态以及端口号等信息。本文为了简化仅引入前三个变量,且页面已经过分类,访问已按事务划分; 该数据集为Transactional格式的数据。 研究目的 找出用户的访问模式,为网站结构上的调整和网站经营决策提供支持。 网络日志分析 加载数据集 网络日志分析 使用C
文档评论(0)