- 1、本文档共22页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
第六章频繁项集6.1购物篮模型购物篮模型(market-basketmodel)本质:描述“项”(item)和“购物篮”(basket/transaction)两类元素之间的多对多关系。通常我们假设一个购物篮中项的总数目较小,相对于所有项的总数目而言要小的多。而购物篮的数目通常假设很大,导致在内存中无法存放。整个数据假定由一个购物篮序列构成的文件来表示。频繁项集与相似项发现的区别频繁项集问题主要关注包含某个特定项集的购物篮的绝对数目。相似项发现主要目标是寻找购物篮之间具有较高重合度的项集,不管购物篮数目的绝对数量是否很低。一、频繁项集(frequentitem)的定义直观上:一个在多个购物篮中出现的项集成为频繁项集。形式化:如果I的支持度不小于s,则称I是频繁项集。s:支持度阈值(supportthreshold)I的支持度(support):包含I(即I是购物篮中项集的子集)的购物篮数目。例6.1购物篮:每个集合项:词语这些集合是通过在谷歌有哪些信誉好的足球投注网站“catdog”然后从排名较高的网页摘要中生成。由于购物篮是集合,所以一个词语在某个购物篮中出现两次不会被考虑。即项在购物篮中只能出现一次。这些词语中的大写被忽略。单元素集合空集:空集是任何集合的子集,支持度为8。但通常情况下不关注空集。“cat”:6(出现在除(4)和(8)的购物篮中)“dog”:7(在除(5)之外的购物篮中都出现)“and”:5“a”、“training”:3“for”、“is”:2其他:不多于1假定给出的支持度阈值s为3,频繁项集为{dog}、{cat}、{and}、{a}、{training}双元素集合一个双元素集合中的两个元素本身都必须是频繁的,这样该集合才有可能是频繁的。所有可能的双元素频繁集合只有10个。三元素集合三个元素组成的项集要成为频繁项集,必须要求其中任意两个元素组成的集合都是频繁的。频繁的双元素项集:{dog,a}{dog,and}{dog,cat}{cat,and}eg.集合{dog,a,and}不可能是频繁项集,因为如果它是的话,那么必定有{a,and}是频繁项集,但是这个集合并不频繁。eg.集合{dog,cat,and}有可能频繁,因为{dog,cat}{cat,and}为频繁项集,但是集合中的三个词只在购物篮(1)和(2)中出现,因此实际上并不频繁。如果不存在三元素频繁项集,肯定不会存在四元素或更多元素的频繁项集。二、频繁项集的应用最早应用:真实的购物篮分析项:商店出售的不同商品购物篮:单个购物车中所装的商品通过发现频繁项集,零售商可以知道哪些商品通常会被顾客一起购买。那些共同购买的频度远高于各自独立购买所预期的频度的项对或项集。其他应用1.关联概念(relatedconcepts)项:词购物篮:文档文档中所有词构成对应购物篮中的所有项如果忽略所有停用词,我们希望在高频词对中发现某些能够代表联合概念的一部分词对。2.文档抄袭(plagiarism)项:文档购物篮:句子一篇文档中如果包含某个句子,则认为该句子对应的购物篮中包含文档对应的项。我们寻找那些在多个购物篮中共同出现的项对。如果发现这样的项对,就是两篇文档有很多相同的句子。实际中,一到两个句子相同都是抄袭发生的有力证据。3.生物标志物(biomarker)项:①诸如基金或血蛋白之类的生物标志物②疾病购物篮:某个病人的数据集(基因组、血生化分析数据、病史信息)频繁项集:由某个疾病和一个或多个生物标志物构成,它们组合在一起给出的是疾病的一个检测建议。三、关联规则(associationrule)关联规则:从数据中抽取到的频繁项集结果往往采用if-then形式的规则集合来表示,这些规则称为关联规则。形式:I→j(I为项集,j为项)如果I中所有项出现在某个购物篮的话,那么j“有可能”也出现在这一购物篮。可信度(confidence)I∪{j}的支持度/I的支持度即所有包含I的购物篮中同时包含j的购物篮的比例。例6.2{cat,dog}→and的可信度:3/5{dog}→cat的可信度:5/7兴趣度(interest)其可信度与包含j的购物篮比率之间的差值。一条规则的兴趣度很高:某个购物篮中I的存在在某种程度上会促进j的存在;兴趣度为绝对值很大的负值:I的存在会抑制j的存在。eg.{dog}→cat的兴趣度计算{dog}→cat的可信度:5/7cat出现在所有8个购物篮中的6个5/7-6/8=0.036该关联规则并不十分“有趣”例6.3{diapers}→beer的兴趣度很高:购买尿布的人中购买啤酒的比率显著高于所有
文档评论(0)