网站大量收购闲置独家精品文档,联系QQ:2885784924

数据挖掘基本算法.ppt

  1. 1、本文档共122页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

(2)神经网络方法SOMs算法步骤:Step1随机选取一组输入层神经元到输出层神经元之间的权值;Step2选取输出神经元j的邻接神经元集合Sj。Sj(0)是初始时刻为0的神经元集合形状,Sj(t)则为t时刻的形状;Step3输入一个新样本X;Step4计算欧式距离dj,即输入样本与每个输入神经元j之间的距离;Step5修正输出神经元j*及其邻近神经元的权值;Step6重复Step3-Step5的学习过程。第92页,共122页,星期六,2024年,5月(3)高维数据聚类方法1)CLIQUE:维增长子空间聚类方法2)PROCLUS:维归约子空间聚类方法第93页,共122页,星期六,2024年,5月1)CLIQUE:维增长子空间聚类方法算法步骤:Step1找出对应于每个属性的一维空间中的所有稠密区域;Step22?k;Step3repeat;Step4由稠密的k-1维单元产生所有的候选稠密k维单元;Step5删除点数少于ξ的单元;Step6k?k+1;Step7until不存在候选稠密k维单元;Step8通过取所有邻接的、高密度的单元并发现簇;Step9使用一小组描述簇中单元的属性值阈的不等式概括每一个簇。第94页,共122页,星期六,2024年,5月1)CLIQUE:维增长子空间聚类方法缺点:CLIQUE算法容易破坏密集区域的边缘,降低最终结果的准确性。不能自动去除数据集中的孤立点,增加了计算复杂性。可能会剪掉一些密集单元,对最终的聚类结果质量造成影响。算法的多步骤都采用近似算法,聚类结果的精确性可能因此降低。第95页,共122页,星期六,2024年,5月2)PROCLUS:维归约子空间聚类方法投影聚类(PROjectedCLUstering,PROCLUS)是一种典型的维规约子空间聚类方法,即它不是从单维空间开始,而是从高维的属性空间中寻找簇的初始近似开始。对每组各簇赋值一个权值,并且在下一轮迭代中使用这些更新的权重产生簇。这导致在某期望维度的所有子空间中检测稠密区域,并且避免在较低维度的投影维产生大量重叠的维。第96页,共122页,星期六,2024年,5月6.4.8模糊聚类FCM由于模糊聚类得到了样本属于各个类别的不确定性程度,表达了样本类属的中介性,因此更能客观地反映现实世界。第97页,共122页,星期六,2024年,5月第六章数据挖掘基本算法6.1分类规则挖掘6.2预测分析与趋势分析规则6.3数据挖掘的关联算法6.4数据挖掘的聚类算法6.5数据挖掘的统计分析算法6.6数据挖掘的品种优化算法6.7数据挖掘的进化算法第98页,共122页,星期六,2024年,5月6.5数据挖掘的统计分析算法6.5.1辨别分析6.5.2回归建模6.5.3优点和缺点第99页,共122页,星期六,2024年,5月6.5.1辨别分析辩别分析找出一系列数或权重描述性分类函数,该函数能最大限度地划分变量类别。辨别分析在发现变量的相似集合方面很流行,进行顾客市场细分时此技术很有用。阈值决定是否将对象归入一个组,如果对象大于等于阈值,则属于该组;对象小于阈值,则属于另一组。权重被称之为辨别系数,聚类的数据挖掘过程与此相似。第100页,共122页,星期六,2024年,5月6.5.2回归建模回归方程用一组独立变量和常量估计一因变量,因此分类研究可以用传统统计回归技术构建。线性回归模型致力于实现许多数据挖掘工具的功能,如预测顾客对直接邮寄广告活动的反应。引入条件概率技术后,回归技术可用于预测,预测反应所用的回归模型有时叫做线性概率模型。Logit模型就是回归模型的一种,其中所有独立变量都是分类的;logisticregression模型与logit模型相似,但是此模型中还可有连续变量。第101页,共122页,星期六,2024年,5月6.5.3优点和缺点优点精确、易理解且已广泛使用。缺点统计学受到的最大批判是很难有效使用,许多商业人员更容易掌握数据挖掘而无法搞清楚统计术语,因此统计学家与想利用预测模型的商业人员总是存在隔阂。IBM,SPSS和SAS公司一直在努力将标准的统计模型与神经元网络、决策树及其他与数据挖掘有关的技术结合在一起。第102页,共122页,星期六,2024年,5月第六章数据挖掘基本算法6.1分类规则挖掘6.2预测分析与趋势分析规则6.3数据挖掘的关联算法6.4数据挖掘的聚类算法6.5数据挖掘的统计分析算法6.6数据挖掘的品种优化算法6.7数据挖掘的进化算法第103页,共122

文档评论(0)

xiaolan118 + 关注
实名认证
内容提供者

你好,我好,大家好!

版权声明书
用户编号:7140162041000002

1亿VIP精品文档

相关文档