- 1、本文档共51页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第七章 数据仓库与数据挖掘之-------数据挖掘 主要内容: 基本概念 数据挖掘过程 关联规则 数据挖掘的应用及趋势 规模庞大、纷繁复杂的数据体系让使用者漫无头绪、无从下手; 在这些大量数据的背后却隐藏着很多具有决策意义的有价值的信息。 如何发现这些有用的知识,使之为管理决策和经营战略发展服务?-数据挖掘(Data Mining)。 美国加州某个超市连锁店通过数据挖掘从记录着每天销售和顾客基本情况的数据库中发现: 在下班后前来购买婴儿尿布的顾客多数是男性,他们往往也同时购买啤酒。 于是这个连锁店的经理当机立断地重新布置了货架,把啤酒类商品布置在婴儿尿布货架附近,并在二者之间放上土豆片之类的小食品,同时把男士们需要的日常生活用品也就近布置,这样一来,上述几种商品的销量几乎马上成倍增长。 数据挖掘以数据仓库中的数据为对象 以数据挖掘的算法为手段 最终以获得模式或规则为结果 并通过展示表示出来 基本概念 数据挖掘是一个利用各种分析方法和分析工具在大规模海量数据中建立模型和发现数据间关系的过程,这些模型和关系可以用来做出决策和预测 数据挖掘是一门交叉学科,会聚了数据库、人工智能、统计学、可视化、并行计算等不同学科和领域 数据挖掘过程 数据挖掘可由下面几个步骤组成: (1)挖掘主题 (2)数据预处理 (3)挖掘算法选择 (4)数据挖掘 (5)结果展示 (6)评价 关联规则及Apriori算法 关联规则又称关联方法,是数据挖掘中的基本方法 主要目的是寻找数据间的关联性 如伊拉克局势混乱必导致原油价格上涨 如天下雨则雨伞销售量增加 如购买电筒后大都购买电池 如下雪后人们必穿棉衣等 相关性有时蕴藏在内部,不易发现 可以通过相关规则找出其内部相关性 然后以模式或规则形式将其表示出来 关联规则的常用的算法是Apriori算法,这是一种统计型算法,它的效率高、效果好,是目前最为流行的挖掘算法之一 目前以该算法为基础推广产生了很多种能适应不同环境的扩充的Apriori算法。 关联规则的基本概念 项(item)与项集(itemset) 项是关联规则中的基本元素,可用字符串表示,一般用以x或y表示 项集是项的集合可用I表示 I={i1,i2,in},项集给出了关联规则的数据对象 交易又可称事务 它是项集的子集,它可记为T且T∈I 交易反映了项间的关联 交易数据库是交易的集合,因此也可称为交易集或简称数据库,并记为D D反映了数据关联中的挖掘对象。 关联规则是一个蕴涵式:X-y,其中X,Y∈I且X∩y=φ,它表示某些项X出现时另一些项y也会出现 在大多数情况下,这种关系带有一定概率,我们用两种概率关系表示: 1)支持度(support): 2)最小支持度minS: 3)置信度(confidence): 4)最小置信度minC: Apriori 算法 Apriori 算法使用候选项目集寻找频繁项目集,是一种逐层有哪些信誉好的足球投注网站的递归算法。K-项目集用于探索(K+1)项目集。首先,找出频繁1-项目集的集合,如{A}包含一个数据项,记做L1,L1用于找频繁2-项目集的集合L2,如{A,B}包含两个数据项,而L2用来找L3,如此下去,直到不能找到频繁K-项目集。(每个Li都需要一次数据库的扫描) K-项集:包含K个项的集合称K—项集。 频繁项集:所有支持度≥最小支持度的项集,这些项集称频集或频繁项集 频繁项集的固有性质(或称先验知识) : 性质1 频繁项集的子集必为频繁项集 性质2 非频繁项集的超集必不为频繁项集 支持度(A-B)= 包含A和B的元组数 / 元组总数(A-B的支持度为3/5 =60%) 可信度(C):是指包含A和B的事务数与包含A的事务数之比,即A给定的情况下关于B的条件概率。 实例介绍 设有项集T={A,B,C,D ,E}并有如下表所示的数据库D 设定: minS=50% min C=80% 试求其关联规则 解 : 项目数M=5,而交易数为4即lDl=4,做递归如下: (1)求L1 对C1做支持度计算可得如图 3)在淘汰小于minS后得L1 (2)在L1的基础上求L2 1)连接与剪枝 连接L1*L1并做剪枝后可得如图所示的潜在频繁项2—项集C2 (1)求L2 1)经连接与剪枝后可得潜在频繁项2—项集C2 对C2做支持度计算可得如图 3)在淘汰小于minS后得L1 (3)在L2的基础上求L3 1)连接与剪枝 连接L2*L2并做剪枝后可得如图所示的潜在频繁项3—项集C3 (1)求L3 1)经连接与剪枝后可得潜在频繁项3—项集C3 对C2做支持度计算可得如图所示的潜在频繁3—
文档评论(0)