数据挖掘基础课件.ppt

下载文档 降价啦

9
0
约 87页
2016-08-13 发布于湖北
举报
版权申诉
保障服务

数据挖掘基础课件.ppt

1、本文档共87页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

4.1 装袋 / 提升（续）提升（Boosting）过程如下：每个训练样本赋予一个权，并学习得到一系列分类法。对于迭代t ( t = 1, 2,..., T )，学习得到分类法Ct后，更新权，使得随后的分类法Ct+1“更关注”Ct的分类错误。最终的提升分类法C*组合每个分类法的表决，这里每个分类法的表决是其准确率的函数。通过取得票的平均值，提升算法也可以扩充到连续值预测。 3.1 关联规则挖掘（续）连接步：为找Lk，通过Lk - 1与自己连接产生候选k-项集的集合。该候选项集的集合记作Ck。 Ck是Lk的超集。扫描数据库，确定Ck中每个候选的计数，将令计数值不小于最小支持度计数的（频繁的）所有候选加入Lk。剪枝步：但Ck可能很大，这样所涉及的计算量就很大。根据Apriori性质如果一个候选k-项集的(k-1)-子集不在Lk-1中，则该候选也不可能是频繁的，从而可以由Ck中删除。 Apriori性质(逆反描述)：任何非频繁的(k-1)-项集都不是可能是频繁k-项集的子集。 3.2 决策树决策树学习是归纳推理算法。它是一种逼近离散函数的方法，且对噪声数据有很好的健壮性。在这种方法中学习到的知识被表示为决策树，决策树也能再被表示为多个if-then的规则，以提高可读性。基本决策树算法就是一个贪心算法。它采用自上而下、分而制之的递归方式来构造一个决策树通常，决策树是一种自顶向下增长树的贪婪算法，在每个结点选取能最好地分类样例的属性。继续这个过程直到这棵树能完美分类训练样例，或所有的属性都使用过了。“信息增益” 用于衡量属性的价值。熵（entropy）是一种度量信息增益的指标，它描述了样本的纯度（purity）。下面是熵的定义： Entropy = -∑Pilog2Pi 3.2 决策树（续）注意点：（1）避免过度拟合，应该适度剪枝；（2）连续值的离散化；（3）处理缺失值的方法：最常见值、按概率分配；（4）处理权重不同的属性常用实现算法： CART、ID3、ASSISTANT、C4.5 3.3 人工神经网络人工神经网络（Artificial Neural Networks）提供了一种普遍而且实用的方法，来从样例中学习值为实数、离散或向量的函数。反向传播（Back Propagation）这样的算法使用梯度下降来调节网络参数以最佳拟合由输入/输出对组成的训练集合。 BP网络的学习方法和目标：对网络的连接权值进行调整，使得对任一输入都能得到所期望的输出。常用的非线性作用函数是Sigmoid函数，即f (x)=1/(1+ e-x)。在神经网络模型中，大量神经元节点按一定体系结构连接成网状。神经网络一般都具有输入层，隐层和输出层。每个神经元都是一个结构相似的独立单元，它接受前一层传来的数据，并将这些数据的加权和输入非线性作用函数中，最后将非线性作用函数的输出结果传递给后一层。误差反向传播的过程 3.3 人工神经网络（续）自适应共振理论模型(ART) ——聚类连续/离散Hopfield神经网络——求近似最优解，识别与分类双向联想记忆模型 (BAM) ——识别玻尔兹曼机(BM) ——求最优解脑中盒模型(BSB) ——识别与分类自组织映射模型(SOM) ——识别与分类对向传播网络模型(CPN) ——识别与分类小脑模型(CMAC) ——快速识别 3.4 朴素贝叶斯（Naive Bayes）分类器朴素贝叶斯分类器是一种基于贝叶斯理论的分类器。它的特点是以概率形式表达所有形式的不确定，学习和推理都由概率规则实现，学习的结果可以解释为对不同可能的信任程度。 P(H)是先验概率，或H的先验概率。P(H|X)是后验概率，或条件X下，H的后验概率。后验概率P(H|X)比先验概率P(H)基于更多的信息。P(H)是独立于X的。假定数据样本世界由水果组成，用它们的颜色和形状描述。假定X表示红色和圆的，H表示假定X是苹果，则P(H|X)反映当我们看到X是红色并是圆的时，我们对X是苹果的确信程度。朴素贝叶斯分类能够奏效的前提是，P(X|H) 相对比较容易计算。假定X表示红色和圆的，H表示假定X是苹果；则P(X|H)表示已知苹果，它既红又圆的概率。 3.5 期望最大化（EM）期望最大化（EM）方法和朴素贝叶斯方法有着共同的理论基础。期望最大化是一种基于循环过程的最大似然参数估计方法，用于解决带缺失数据的参数估计问题。样本数据分为标记样本和未标记样本，按照统计的观点，对于每一个样本的产生，其背后都有一个模型，即样本生成模型。样本生成模型的参数先由标记样本确定，再通过标记样本和利用当前模型判断标记的未标记样本共同调整。 3.5 期望最大化（续）如果参数适当，EM 算法能得到较好的分类结果，但计算速度相对较慢。其