- 1、本文档共71页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘与决策支持教师:13/dmwiki/index.php?id=zh:people:xush徐硕电话mail: mailto:xush@xush@ OR mailto:pzczxs@pzczxs@ 微信号:pzczxs课程网址:16/DMWiki/index.php?id=course:datamining16http://16/DMWiki/index.php?id=course:datamining1616/DMWiki/index.php?id=course:datamining16 2016年09月29日课程主要内容关联规则挖掘(Association Rule Mining)相似项发现(Similar Item Finding)分类及预测(Classification Prediction)支持向量机及其他(SVM and Beyond)序列标注方法(Sequence Labeling)聚类分析(Clustering)概率主题模型(Probabilistic Topic Model)深度学习(Deep Learning)2016年09月29日第一章:关联规则挖掘引言频繁项集定义及应用频繁项集挖掘方法Apriori算法FP-Growth算法闭项集和最大项集关联规则频繁序列挖掘方法实际操作本章小结2016年09月29日引言关联反映一个事物与其他事物之间的相互依存性。如果两个或者多个事物之间存在一定的关联关系,那么,其中一个事物就能够通过其他事物预测到。 典型的关联规则发现问题是对超市中的货篮数据(Market Basket)进行分析。通过发现顾客放入货篮中的不同商品之间的关系来分析顾客的购买习惯。 牛奶,鸡蛋,糖,面包牛奶,鸡蛋,麦片,面包鸡蛋,糖顾客1顾客2顾客32016年09月29日购物篮模型购物篮模型用于描述两类对象之间,一种常见的多对多关系其中的一类对象是项(item,或商品),另一类对象是购物蓝或交易每个购物蓝是由多个项组成的集合(项集)通常假设任一购物篮中项的总数目较小,相对于所有项的总数而言要小得多购物篮的数目通常假设很大,通常无法完全存放在内存中2016年09月29日购物篮模型:实例2016年09月29日第一章:关联规则挖掘引言频繁项集定义及应用频繁项集挖掘方法Apriori算法FP-Growth算法闭项集和最大项集关联规则频繁序列挖掘方法实际操作本章小结2016年09月29日频繁项集:定义在多个购物蓝中出现的项集,称为频繁项集如果I是一个项集I的支持度(Support)是指包含I的购物篮数目假设有个支持度阈值s如果I的支持度不小于s,则I是频繁项集2016年09月29日单元素集合在购物篮中出现情况单元素集合中,{cat}和{dog}非常频繁{dog}支持度为7,{cat}支持度为6and的出现也很频繁,{and}支持度为5a和training各出现3次而for和is各出现2次。其他词的出现次数?1次假设给定的支持度阈值为s=3有5个频繁的单元素集合{dog},{cat},{and},{a}和{training}2016年09月29日双元素集合在购物篮中出现情况双元素集合中的两个元素都必须是频繁的这样该集合才有可能是频繁的所有可能的双元素频繁集合只有10个在s=3的情况下,{dog, training}其支持度为2,并非频繁项集只有如下4个双元素集合是频繁的:{dog, a}、{dog, and}、{dog, cat}和{cat, and}2016年09月29日三元素频繁项集是否存在?三个元素组成的集合要成为频繁项集,必须其中任意两个元素组成的集合都是频繁的例如,集合{dog, a, and}不可能是频繁项集,如果它是,那么必定有{a, and}是频繁项集,但是这个集合并不频繁{dog, cat, and}有可能是频繁项集,因为任意两个元素组成的集合都是频繁项集不过集合中的三个词只在购物篮(1)和(2)中一起出现,因此该集合实际上并不是频繁项集如果不存在三元素频繁项集,那么肯定不会存在四元素或更多元素组成的频繁项集2016年09月29日频繁项集:应用购物篮模型最早应用源于真实购物篮的分析超市通常会记录每个顾客购物车的内容。此处“项”指的是商店出售的不同商品购物篮指的是单个购物车中所装的商品。一个大型超市或许有10万个不同的项(商品),每天产生的购物数据可能有几百万条通过发现频繁项集,商家可以知道哪些商品通常会被顾客一起购买商家尤其关注,那些共同购买频度远高于各自独立购买频度的项对(用做捆绑销售的商品对)2016年09月29日热狗和芥末的例子很多喜欢热狗的人,会同时购买芥末这个分析结果,能够为商店提供营销的机会可为热狗做促销广告,同时提高芥末的价格当人们到商店来购买便宜的热狗时,
您可能关注的文档
- +下载浏览 - 象屿地产.pdf
- -1--博士后聘期考核表.pdf
- -1--西区创新驱动发展实施方案.pdf
- -1--高教动态-中央财经大学高等教育研究所编2019年第2期(总第312期).pdf
- -37--新能源理念开启新生活.pdf
- -富士通集团绿色采购准则.pdf
- .优质护理交流.-云霞开锦绣,万物启芳华!在优质护理服务精神的指引下,我们迎来了.doc
- 001-研究生手册2018版(排版)最终排版20180815.-.201883018449.pdf
- 003国际商学院 - 对外经济贸易大学研究生院.docx
- 03地块)幕墙、门窗工程.docx
- 2024-2030年中国洗眼液行业市场发展趋势与前景展望战略分析报告.docx
- 2024-2030年中国洗胃机市场应用规模及运行动态分析研究报告.docx
- 2024-2030年中国汽车充电站行业市场深度调研及前景趋势与投资前景研究报告.docx
- 2024-2030年中国汽油发电机组行业应用态势与投资盈利预测报告.docx
- 2024-2030年中国汽车微电机行业市场深度调研及发展前景与投资研究报告.docx
- 2024-2030年中国汽车用镀锌板行业市场发展分析及竞争格局与投资前景研究报告.docx
- 2024-2030年中国波导短裤行业市场发展趋势与前景展望战略分析报告.docx
- 2024-2030年中国油田工程技术服务产业竞争现状及未来产值预测报告.docx
- 2024-2030年中国汽车雪地轮胎行业现状动态与需求趋势预测报告.docx
- 2024-2030年中国沙滩车行业发展趋势及投资战略研究报告.docx
文档评论(0)