无监督学习与聚类.ppt

  1. 1、本文档共38页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
10.6 谱聚类 谱聚类是一种新的聚类分析方法 谱聚类通过求取核矩阵的特征值和特征矢量实现聚类。 令:{x1, …, xn} 为样本集合,?为输入空间到特征空间的映射,并且||?(x)||=1,k为相应的核函数。 核矩阵K=[k(xi, xj)]n×n 第三十页,共三十八页,2022年,8月28日 两类谱聚类 计算核矩阵K; 计算对应最大特征值的特征矢量y(n维); 通过一个阈值ε量化y,y中的元素大于ε的置为1,小于ε的置为0; 对应0的样本为一个类别,对应1的样本为另一个类别。 第三十一页,共三十八页,2022年,8月28日 模式识别 – 无监督学习与聚类 模式识别 – 无监督学习与聚类 无监督学习与聚类 第一页,共三十八页,2022年,8月28日 10.0 监督学习与无监督学习 监督学习与无监督学习的最大区别在于训练样本是否有类别标号,无类别标号的称为无监督学习; 监督学习与无监督学习也被称为有教师学习与无教师学习。 第二页,共三十八页,2022年,8月28日 10.1 混合密度及可辨识性 从理论上讲,无监督学习可以看作是一个混合密度的估计问题: 所有样本都来自于c种类别,c已知; 每种类别的先验概率 已知; 类条件概率的数学形式已知 ,但参数 未知; 样本类别未被标记。 第三页,共三十八页,2022年,8月28日 混合密度 样本可以看作是按如下方式产生的:先以概率 决定其所属类别 ,然后根据概率密度 生成一个具体的样本x。 因此x样本的产生概率为: 第四页,共三十八页,2022年,8月28日 可辨识性 不可辨识:如果无论样本的数目有多少,都不存在唯一的解 ,则称密度 是不可辨识的; 完全不可辨识:如果参数 的任何部分都无法求出,则称为完全不可辨识; 大多数的混合密度是可以辨识的,但也存在某些混合密度是无法辨识的。 第五页,共三十八页,2022年,8月28日 完全不可辨识 假设样本x的概率是由两个0-1分布混合而成,两个分布的先验概率相等,参数分别为 则混合概率为: 即使可以统计出 , 也无法求解出参数 。 第六页,共三十八页,2022年,8月28日 部分不可辨识 假设样本x的概率密度是两个均匀分布的混合: 如果训练样本是0-1之间的均匀分布: 则对任意的0t1,只要: 第七页,共三十八页,2022年,8月28日 10.2 聚类准则函数 类别数 c = 2 第八页,共三十八页,2022年,8月28日 误差平方和准则 将样本分成c个子集D1, …, Dc,ni为第i个子集的样本数,mi为样本均值: 误差平方和准则: 第九页,共三十八页,2022年,8月28日 散布矩阵 类内散布矩阵: 类间散布矩阵: 总体散布矩阵: 第十页,共三十八页,2022年,8月28日 散布准则 基于行列式的散布准则: 基于不变量的散布准则: 第十一页,共三十八页,2022年,8月28日 准则函数的优化 穷举法优化:聚类准则函数的优化是组合最优问题,是一个NP难题,将n个样本分到c个类别有cn/c!种分法,穷举计算是不现实的,只能寻找次优方法解决; 迭代最优化:随机设置初始聚类,计算将样本x从Di聚类移到Dj聚类是否能够使准则函数减小,减小则做此修改,否则不修改。 第十二页,共三十八页,2022年,8月28日 10.3 k-均值聚类 begin initialize 样本数n,聚类数c,初始聚类中心m1, …, mc; do 按照最近邻mi分类n个样本; 重新计算聚类中心m1, …, mc; until mi不再改变; return m1, …, mc; end 第十三页,共三十八页,2022年,8月28日 k-均值聚类的特点 k-均值算法可以看作是对平方误差准则函数的贪心有哪些信誉好的足球投注网站算法; 聚类结果受初始聚类中心的选择影响很大,不同的初始聚类中心会导致不同的聚类结果。 第十四页,共三十八页,2022年,8月28日 模糊k-均值聚类 k-均值算法的每一步迭代中,每一个样本都被认为完全属于某一个类别。作为改进版本,可以引入模糊的概念,假定每个样本以某种隶属度函数属于某个类别; 样本x对第i个聚类的隶属度可以定义为: 其中mi为第i个聚类的均值,b1为控制不同类别混合程度的自由参数。 第十五页,共三十八页,2022年,8月28日 模糊k-均值聚类算法 begin initialize n, c, b, m1,

文档评论(0)

xiaoyao2022 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档