- 1、本文档共26页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
聚类 IRLAB 大纲 聚类分析简介 层次聚类 单连接和全连接聚类 组平均聚类 应用:改进语言模型 自顶向下聚类 非层次聚类 K-均值 EM算法 什么是聚类分析? 聚类: 数据对象的集合 在同一个类中,数据对象是相似的 不同类之间的对象是不相似的 聚类分析 一个数据集合分组成几个聚类 聚类是一种无监督分类:没有预定义的类 典型应用 作为一个独立的工具 透视数据分布 可以作为其他算法的预处理步骤 聚类算法类型 层次聚类与非层次聚类 自底向上与自上向下(凝聚与分裂) K-均值 软聚类与硬聚类 K-均值 模糊聚类(EM算法) 层次聚类 自底向下的聚类 每一项自成一类 迭代,将最近的两类合为一类 自顶向下的聚类 将所有项看作一类 找出最不相似的项分裂出去成为两类 类的相似度度量 我们可以知道两个项之间的相似度,但是聚类要求知道类与类之间的相似度 三种方法: 单连接方法 全连接方法 组平均方法 非层次聚类 K-均值 硬聚类 计算每个类的中心 EM算法 考虑稀疏数据 公式 用EM算法计算P( ci|w1) K-均值 将n个向量分到k个类别中去 选择k个初始中心 计算两项距离 计算均值 K-均值算法 EM-算法 算法族 以前的一个例子:前向后项算法是EM算法的一个例子 可以用于任意的概率模型E(likelihood)及max likelihood estimite估计 模糊聚类 经典的k均值聚类算法的一部迭代中,每一个样本点都被认为是完全属于某一类别。 模糊聚类放松这一条件,假定每个样本是模糊隶属于某一类的。 每类是一个高斯分布 样本集合模拟成一个高斯混合分布 EM算法 点集x1,……xn K个类 Z为二维数组,zij为1表示xi在j类中,否则为0 每个j类定义为一个高斯分布 EM算法 用先前的概率累加 任意一项xi的概率 EM算法 参数 给定参数下x的值 EM算法 找到zij的期望值并用它计算最大似然估计,反复迭代,直到收敛。 特点 我们从初始迭代直到收敛 是局部最优 K均值是用EM算法求解高斯混合分布的特例 * * * * *
文档评论(0)