中科大数据挖掘聚类.pdf

下载文档 降价啦

12
0
约1.61万字
约 50页
2017-09-21 发布于湖北
举报
版权申诉
保障服务

中科大数据挖掘聚类.pdf

1、本文档共50页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

中科大数据挖掘聚类

数据挖掘聚类 December 29, 2015 Outline 1 从例子理解聚类概念 2 划分方法 3 层次方法 4 基于密度的方法 5 聚类评估 1 从例子理解聚类概念 2 划分方法 3 层次方法 4 基于密度的方法 5 聚类评估从例子理解聚类概念把卡通人物分类不同的分类标准将会得到不同的结果：（组织形式/性别）人群分类例子企业内部，员工去哪个部门？参加那个项目？客户分类问题如果用分类技术，需要大量“标签”监督信号标签的给出，需要专家知识；可能需要的标签很多，成本问题理解聚类例子给定一张表，表示类别的列y ，值全缺失；请补充给定行的y 值。度量相似！存在问题填写y 值的方法：y 的取值域及其映射方法? 如何评价y 值? 没有损失函数！转化为新的优化问题 y 值相同的行，被认为是“相似的”，形成一个cluster/类 y 值不同的行，被认为是“差距大的”，分属于不同的cluster/类新优化问题：cluster 内的数据相似，cluster 之间的数据“差距大”。相似性度量相似性度量具有的主观性数据的不相似性/距离欧式距离 Minkovski 距离相关系数 . . . 实践中，用距离定义不相似性给定两个数据对象 O , O ，判断其相似性 1 2 通常，定义一个实值函数D O , O 来计算数据对象间的“差异”/ 1 2 “距离” cluster 的距离 cluster 内的数据相似给定两个数据的距离计算公式如何计算集合内多个数据的距离，即：得到一个实值，描述cluster 内的相似性？方法1 ：所有两两距离的均值方法2 ：选择某个“特殊点”，计算所有数据和特殊点的距离均值，特殊点可以是某个实际数据，也可以是虚拟数据的“中心”点 cluster 之间的数据“差距大” 给定两个数据的距离计算公式如何计算两个数据集合的距离，即：得到一个实值，描述不同cluster 之间的相似性/距离？方法1 ：不同集合内的两个数据的距离最小值为集合距离；方法2 ：不同集合内的两个数据的距离最大值为集合距离；方法3 ：不同集合内的所有两个数据的距离均值为集合距离； . . . 1 从例子理解聚类概念 2 划分方法

您可能关注的文档

文档评论（0）

dajuhyy + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

中科大数据挖掘聚类.pdf