《大数据》第3节数据挖掘算法(下).ppt

下载文档 降价啦

7
0
约7.69千字
约 34页
2018-08-19 发布于湖北
举报
版权申诉
保障服务

《大数据》第3节数据挖掘算法(下).ppt

1、本文档共34页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

《大数据》第3节数据挖掘算法(下)

大数据 BIG DATA of 65 2 3.4 关联规则关联规则是数据挖掘中最活跃的研究方法之一，是指有哪些信誉好的足球投注网站业务系统中的所有细节或事务，找出所有能把一组事件或数据项与另一组事件或数据项联系起来的规则，以获得存在于数据库中的不为人知的或不能确定的信息，它侧重于确定数据中不同领域之间的联系，也是在无指导学习系统中挖掘本地模式的最普通形式。应用市场：市场货篮分析、交叉销售（Crossing Sale）、部分分类（Partial Classification）、金融服务（Financial Service），以及通信、互联网、电子商务 ······ 第三章数据挖掘算法 of 65 3 3.4 关联规则第三章数据挖掘算法一般来说，关联规则挖掘是指从一个大型的数据集（Dataset）发现有趣的关联（Association）或相关关系（Correlation），即从数据集中识别出频繁出现的属性值集（Sets of Attribute Values），也称为频繁项集（Frequent Itemsets，频繁集），然后利用这些频繁项集创建描述关联关系的规则的过程。 3.4.1 关联规则的概念关联规则挖掘问题：发现所有的频繁项集是形成关联规则的基础。通过用户给定的最小支持度，寻找所有支持度大于或等于Minsupport的频繁项集。通过用户给定的最小可信度，在每个最大频繁项集中，寻找可信度不小于Minconfidence的关联规则。发现频繁项集生成关联规则如何迅速高效地发现所有频繁项集，是关联规则挖掘的核心问题，也是衡量关联规则挖掘算法效率的重要标准。 of 65 4 3.4 关联规则第三章数据挖掘算法 3.4.2 频繁项集的产生及其经典算法格结构（Lattice Structure）常常被用来枚举所有可能的项集。 of 65 5 3.4 关联规则第三章数据挖掘算法 3.4.2 频繁项集的产生及其经典算法格结构（Lattice Structure）常常被用来枚举所有可能的项集。 of 65 6 3.4 关联规则第三章数据挖掘算法 3.4.2 频繁项集的产生及其经典算法 1．Apriori算法 Apriori算法基于频繁项集性质的先验知识，使用由下至上逐层有哪些信誉好的足球投注网站的迭代方法，即从频繁1项集开始，采用频繁k项集有哪些信誉好的足球投注网站频繁k+1项集，直到不能找到包含更多项的频繁项集为止。 Apriori算法由以下步骤组成，其中的核心步骤是连接步和剪枝步：生成频繁1项集L1 连接步剪枝步生成频繁k项集Lk 重复步骤（2）～（4），直到不能产生新的频繁项集的集合为止，算法中止。性能瓶颈 Apriori算法是一个多趟有哪些信誉好的足球投注网站算法可能产生庞大的候选项集 of 65 7 3.4 关联规则第三章数据挖掘算法 3.4.2 频繁项集的产生及其经典算法 2．FP-Growth算法频繁模式树增长算法（Frequent Pattern Tree Growth）采用分而治之的基本思想，将数据库中的频繁项集压缩到一棵频繁模式树中，同时保持项集之间的关联关系。然后将这棵压缩后的频繁模式树分成一些条件子树，每个条件子树对应一个频繁项，从而获得频繁项集，最后进行关联规则挖掘。 FP-Growth算法由以下步骤组成：扫描事务数据库D，生成频繁1项集L1 将频繁1项集L1按照支持度递减顺序排序，得到排序后的项集L1 构造FP树通过后缀模式与条件FP树产生的频繁模式连接实现模式增长 1 2 3 4 图3-11 FP树的构造 of 65 8 3.4 关联规则第三章数据挖掘算法 3.4.2 频繁项集的产生及其经典算法 3．辛普森悖论虽然关联规则挖掘可以发现项目之间的有趣关系，在某些情况下，隐藏的变量可能会导致观察到的一对变量之间的联系消失或逆转方向，这种现象就是所谓的辛普森悖论（Simpson’s Paradox）。为了避免辛普森悖论的出现，就需要斟酌各个分组的权重，并以一定的系数去消除以分组数据基数差异所造成的影响。同时必须了解清楚情况，是否存在潜在因素，综合考虑。 of 65 9 3.4 关联规则第三章数据挖掘算法 3.4.3 分类技术分类技术或分类法（Classification）是一种根据输入样本集建立类别模型，并按照类别模型对未知样本类标号进行标记的方法。根据所采用的分类模型不同基于决策树模型的数据分类基于统计模型的数据分类基于神经网络模型的数据分类基于案例推理的数据分类基于实例的数据分类 1．决策树决策树就是通过一系列规则对数据进行分类的过程。决策树分类算法通常分为两个步骤：构造决策树和修剪决策树。 of 65 10 3.4 关联规则第三章数据挖掘算法 3.4.3 分类技术构造决策树修剪决策树根据实际需求及所