网站大量收购闲置独家精品文档,联系QQ:2885784924

能源大数据分析理论与实践 课件 5.聚类分析.pptx

能源大数据分析理论与实践 课件 5.聚类分析.pptx

  1. 1、本文档共49页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

聚类分析05ClusterAnalysis

5.1聚类的特征提取定义:聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。聚类分析就是给定一个元素集合D,其中每一个元素具有n个观测属性,对这些属性使用某种算法将地划分成K个子集,要求每个子集内部的元素之间的相似度尽可能高,而不同子集之间的元素相似度尽可能的低。分类学习的对象有类别标记,聚类无类别标记,是观察式学习,而不是示例式的学习。聚类分析(ClusterAnalysis)

5.1聚类的特征提取聚类分析的挑战:噪声和无效特征影响聚类结果准确性。解决方案:特征提取——剔除不相关或冗余特征,找到能表现聚类结构的特征子集。特征提取的四个阶段为什么要进行特征提取?提取:使用有哪些信誉好的足球投注网站策略(如完全有哪些信誉好的足球投注网站、顺序有哪些信誉好的足球投注网站和顺序浮动有哪些信誉好的足球投注网站)提取特征子集。评估:根据标准评估特征子集。停止:满足停止准则后,从所有可能的特征子集中选择评估值最好的特征子集。验证:对所选特征子集进行验证,确保特征子集在聚类中的有效性。两个主要用于进行特征提取的模型:过滤器模型和包装器模型

5.1聚类的特征提取原理:基于相似性标准筛选特征(将特征和分数进行关联),剔除与聚类无关的特征。特性:量化特征子集质量,可评估单个特征和组合特征的贡献。考虑特征间的增量影响,优化特征子集。目标:找到更优特征子集,更准确反映数据聚类结构。过滤器模型的常用标准:术语强度、预测特征依赖、熵、霍普金斯统计量1.过滤器模型

5.1聚类的特征提取术语强度?

5.1聚类的特征提取预测特征依赖原理:利用相关特征预测某一特征,量化其相关性。方法:步骤一:用分类算法预测特征??的值,将其视为人为的类别变量。步骤二:分类准确性作为特征相关性的指标。算法选择:数值型特征:使用回归算法;非数值型特征:使用分类算法。推荐算法:最近邻分类算法(天然适用于相似度计算和聚类)

5.1聚类的特征提取熵图1聚类数据对距离分布熵的影响-1(a)均匀数据数据分布数据对之间的距离分布均匀数据的距离分布呈钟形曲线状

5.1聚类的特征提取熵图1聚类数据对距离分布熵的影响-2(b)聚类数据数据分布数据对之间的距离分布聚类数据的分布则有两个不同的峰值,分别对应聚类之间和聚类内部的距离分布。这种峰值的数量通常会随着簇的数量增加而增加。

5.1聚类的特征提取熵图5-1聚类数据对距离分布熵的影响(a)均匀数据(b)聚类数据数据分布数据对之间的距离分布

5.1聚类的特征提取熵?

5.1聚类的特征提取熵?

5.1聚类的特征提取霍普金斯统计量?

5.1聚类的特征提取思想:通过聚类有效性标准结合特征子集,评估特征子集的聚类质量,并不断有哪些信誉好的足球投注网站特征组合,找到最优子集。优缺点:优点:与聚类算法紧密结合,优化特征选择。缺点:计算复杂度高,对有效性标准敏感。特征选择方法:(1)使用已选择的特征子集F运行聚类算法,以确定数据点的标签集合L。(2)使用任意监督标准来量化单个特征相对于L的质量,根据这个结果选择排名前k的特征。上述框架具有很大的灵活性,每一步都可以使用不同种类的聚类算法和特征选择标准。此外,可以将这两步进行迭代,这时,第(1)步不再选择前k个特征,而是将前k个特征的权重设置为1,将其余特征的权重设置为α(α1)。经过数次迭代,在最后一步时,再选择前k个特征。2.包装器模型

5.1聚类的特征提取通常,包装器模型会与过滤器模型结合,以创建更高效的混合模型。先用过滤器模型构建候选特征子集,再用聚类算法来评估每个候选特征子集的质量。对于特征选择的质量,可以采用两种方法来进行评估。使用聚类有效性标准;将聚类标签作为监督学习问题的类别标签,使用分类算法来评估特征质量。由于混合模型结合了两种方法的优点,因此通常能够提供更好的准确性,同时比包装器模型更加高效。3.两个模型结合

5.2基于代表的聚类概念:一种简单直观的聚类算法,直接基于距离或相似性对数据点聚类;使用一组数据点代表簇,这些数据点称为分区代表。核心思路:找到一组高质量的分区代表。通过距离函数将其他数据点分配到最近的分区代表。完成聚类。创建分区代表的方法:根据簇中数据点的属性(如均值)计算代表。直接从现有数据点中选取。基于代表的聚类

5.2基于代表的聚类?1.K-Means算法

2.2无监督学习(UnsupervisedLearning)流程:输入:初始数据集DATA和簇的数目k输出:k个簇,满足平方误差准则函数收敛(1)任意选择k个数据对象作为初始聚类中心;(2)计算各个数据到所选出来的各个中心的距离,将数据对象指派到最近的簇中;然后计算每个簇的均值;(3)根据簇中对象的平均值,将每个对象赋给最类似的簇;(4)更新簇的平均值;(5)计算聚类准则函数E,不收敛则返回(2);(6)直到准则函数E值不再进

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档