- 1、本文档共70页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
FP增长算法由于E、A、C的支持度计数为1小于最小支持度计数,故删除非频繁项E、A、C。频繁项有{B:2},故生成D的频繁2-项集{B:2,D:2}。05高级关联模式挖掘背景介绍01Contents关联规则挖掘的基本概念02频繁项集挖掘算法03关联规则挖掘0406推荐系统中的关联规则挖掘关联规则挖掘一旦识别出频繁项集,下一步是从这些项集中生成潜在的关联规则。关联规则形如,其中A和B是不重叠的项集。A为规则中的“条件”部分,也称为前件,代表了规则的出发条件;B是规则中的“结果”部分,代表了前件出现时,预期将会同时出现的项集,也称为后件。产生规则的步骤:选择频繁项集F。为每个频繁项集生成所有可能的非空子集A。对每个非空子集A,生成规则,令为B。计算每条规则的置信度,即A出现的条件下B出现的概率基于置信度的剪枝置信度(confidence):在前件A发生的情况下,后件B同时发生的条件概率。它是衡量规则准确性的一个标准。基于置信度剪枝目的:减少关联规则挖掘过程中无关或误导性规则的数量,提高挖掘结果的质量。通过设置置信度阈值,只有当规则的置信度高于此阈值时,规则才被认为是强规则,值得进一步分析。从关联分析到相关分析假设在一个大型零售商店中,通过交易数据分析发现:80%的顾客都购买了牛奶。50%的顾客都购买了面包。40%的顾客同时购买了牛奶和面包。现在考虑关联规则:“购买牛奶→购买面包”。支持度为0.4,因为40%的交易中牛奶和面包一起被购买置信度为0.5(40%/80%),看起来这个关联较强尽管“购买牛奶→购买面包”的置信度较高,但这可能并不是因为购买牛奶导致了购买面包的行为,而是因为牛奶和面包都是非常普遍的购买选项。提升度提升度:衡量的是规则前件和后件同时发生的概率与这个两个项集独立发生的概率乘积的比值。引入了提升度帮助我们更加准确地评估两个项集之间是否存在超过随机机会的关联。性质:如果提升度大于1,表明A和B之间有正相关关系,一个出现另一个可能同时出现;提升度等于1,表明A和B独立,没有关联。提升度小于1,表明A和B之间有负相关关系,一个出现可能导致另一个不出现。使用提升度再次计算例子,lift(“购买牛奶”“购买面包”)=1,这意味着购买牛奶和购买面包之间实际上没有超过随机概率的关联。杠杆率杠杆率:衡量项集A和B同时出现的联合概率与假设两个项集完全独立的情况下期望联合概率之间的差性质:如果两个项集完全独立,则杠杆率为零。确信度确信度:衡量的是在规则A→B下,不发生B时A发生的频率与B自身不发生的频率之比。这个指标帮助我们理解当规则A→B不成立时,A发生的可能性有多大。性质:如果A和B是完全独立的,即A对B的发生没有任何影响,则确信度值为1;如果A对B的发生有强烈的正影响,即B几乎总是在A发生时发生,那么Confidence(A→B)接近于1,从而使1?Confidence(A→B)接近于0,这会使确信度趋向无穷大。。05高级关联模式挖掘背景介绍01Contents关联规则挖掘的基本概念02频繁项集挖掘算法03关联规则挖掘0406推荐系统中的关联规则挖掘多层模式挖掘多层模式挖掘:通过利用数据的内在层次结构来探索和发现跨多个层次的关联规则。适用场景:这种方法特别适用于那些具有丰富分类层次的数据集,如零售产品分类和在线内容分类,如零售产品分类和在线内容分类。作用:通过这种技术,企业可以揭示不同层级之间的隐含关系,帮助制定更精确的营销策略和库存管理。多层模式挖掘一个大型在线零售商,其产品分类具有详细的层次结构,从一般类别到具体商品。顶层为最抽象层,自上而下产品变得具体,底层为具体品牌的产品。使用底层规则来探索更一般的类别层面上的关联,比如在Huawei的层次上,可能会发现用户购买HuaweiMate40的同时更有可能购买HuaweiWatch4Pro;在手机层次下,可以发现用户购买华为手机的同时更有可能购买华为的手表。多层模式挖掘模式挖掘步骤:在每个层级中提取模式。从底层开始,即最具体的层次,挖掘出关联规则,并逐步上升到更一般的层次。递减支持度被提出,通过在较低层使用递减的最小支持度,适应不同层级的数据稀疏性。非频繁项集挖掘非频繁模式:数据集中出现频率超过最小支持度阈值的项集,使用支持度阈值剪枝掉的模式。作用:非频繁模式不常出现但可能包含重要信息的模式,同样具有重要的研究价值和应用背景。应用:一些罕见疾病和症状的组合虽然出现的频率较低,但它们可以揭示不常见但临床上极其重要的症状与病症关
您可能关注的文档
最近下载
- IFIX5.1环境下的IFIX服务器、客户端配置.docx VIP
- 简约风研究生复试考研面试PPT模版.pptx
- 生鲜农产品冷链物流配送问题及其路径优化——以华润万家为例.doc
- 2024黑吉辽三省高考政治真题卷.docx VIP
- 提升门7030说明书Fitting instruction of BK 150 FUE-1 and AK 500 FUE-1-ZH.pdf VIP
- 部编版六年级语文下册第六单元核心素养分层作业设计.pdf VIP
- 年产120万m3C30高强混凝土搅拌站工艺设计.docx
- 中国石油大学化工系统工程课件-第4章 换热网络综合(更新).pdf
- 2025年福建省能源集团有限责任公司人员招聘笔试备考题库及答案解析.docx
- 泵送混凝土回弹值换算表.doc
文档评论(0)