数据挖掘基础课件.ppt

  1. 1、本文档共87页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
4.1 装袋 / 提升(续) 提升(Boosting)过程如下:每个训练样本赋予一个权,并学习得到一系列分类法。 对于迭代t ( t = 1, 2,..., T ),学习得到分类法Ct后,更新权,使得随后的分类法Ct+1“更关注”Ct的分类错误。 最终的提升分类法C*组合每个分类法的表决,这里每个分类法的表决是其准确率的函数。 通过取得票的平均值,提升算法也可以扩充到连续值预测。 3.1 关联规则挖掘(续) 连接步:为找Lk,通过Lk - 1与自己连接产生候选k-项集的集合。该候选项集的集合记作Ck。 Ck是Lk的超集。扫描数据库,确定Ck中每个候选的计数,将令计数值不小于最小支持度计数的(频繁的)所有候选加入Lk。 剪枝步:但Ck可能很大,这样所涉及的计算量就很大。根据Apriori性质如果一个候选k-项集的(k-1)-子集不在Lk-1中,则该候选也不可能是频繁的,从而可以由Ck中删除。 Apriori性质(逆反描述):任何非频繁的(k-1)-项集都不是可能是频繁k-项集的子集。 3.2 决策树 决策树学习是归纳推理算法。它是一种逼近离散函数的方法,且对噪声数据有很好的健壮性。在这种方法中学习到的知识被表示为决策树,决策树也能再被表示为多个if-then的规则,以提高可读性。 基本决策树算法就是一个贪心算法。它采用自上而下、分而制之的递归方式来构造一个决策树 通常,决策树是一种自顶向下增长树的贪婪算法,在每个结点选取能最好地分类样例的属性。继续这个过程直到这棵树能完美分类训练样例,或所有的属性都使用过了。“信息增益” 用于衡量属性的价值。熵(entropy)是一种度量信息增益的指标,它描述了样本的纯度(purity)。下面是熵的定义: Entropy = -∑Pilog2Pi 3.2 决策树(续) 注意点: (1)避免过度拟合,应该适度剪枝;(2)连续值的离散化;(3)处理缺失值的方法:最常见值、按概率分配;(4)处理权重不同的属性 常用实现算法: CART、ID3、ASSISTANT、C4.5 3.3 人工神经网络 人工神经网络(Artificial Neural Networks)提供了一种普遍而且实用的方法,来从样例中学习值为实数、离散或向量的函数。 反向传播(Back Propagation)这样的算法使用梯度下降来调节网络参数以最佳拟合由输入/输出对组成的训练集合。 BP网络的学习方法和目标:对网络的连接权值进行调整,使得对任一输入都能得到所期望的输出。 常用的非线性作用函数是Sigmoid函数,即f (x)=1/(1+ e-x)。在神经网络模型中,大量神经元节点按一定体系结构连接成网状。神经网络一般都具有输入层,隐层和输出层。 每个神经元都是一个结构相似的独立单元,它接受前一层传来的数据,并将这些数据的加权和输入非线性作用函数中,最后将非线性作用函数的输出结果传递给后一层。 误差反向传播的过程 3.3 人工神经网络(续) 自适应共振理论模型(ART) ——聚类 连续/离散Hopfield神经网络——求近似最优解,识别与分类 双向联想记忆模型 (BAM) ——识别 玻尔兹曼机(BM) ——求最优解 脑中盒模型(BSB) ——识别与分类 自组织映射模型(SOM) ——识别与分类 对向传播网络模型(CPN) ——识别与分类 小脑模型(CMAC) ——快速识别 3.4 朴素贝叶斯(Naive Bayes)分类器 朴素贝叶斯分类器是一种基于贝叶斯理论的分类器。它的特点是以概率形式表达所有形式的不确定,学习和推理都由概率规则实现,学习的结果可以解释为对不同可能的信任程度。 P(H)是先验概率,或H的先验概率。P(H|X)是后验概率,或条件X下,H的后验概率。后验概率P(H|X)比先验概率P(H)基于更多的信息。P(H)是独立于X的。 假定数据样本世界由水果组成,用它们的颜色和形状描述。假定X表示红色和圆的,H表示假定X是苹果,则P(H|X)反映当我们看到X是红色并是圆的时,我们对X是苹果的确信程度。 朴素贝叶斯分类能够奏效的前提是,P(X|H) 相对比较容易计算。假定X表示红色和圆的,H表示假定X是苹果;则P(X|H)表示已知苹果,它既红又圆的概率。 3.5 期望最大化(EM) 期望最大化(EM)方法和朴素贝叶斯方法有着共同的理论基础。期望最大化是一种基于循环过程的最大似然参数估计方法,用于解决带缺失数据的参数估计问题。 样本数据分为标记样本和未标记样本,按照统计的观点,对于每一个样本的产生,其背后都有一个模型,即样本生成模型。样本生成模型的参数先由标记样本确定,再通过标记样本和利用当前模型判断标记的未标记样本共同调整。 3.5 期望最大化(续) 如果参数适当,EM 算法能得到较好的分类结果,但计算速度相对较慢。其

文档评论(0)

bbnm58850 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档