ch数据挖掘算法聚类.pptVIP

  1. 1、本文档共110页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第七章 数据挖掘算法—聚类 聚类概念 聚类应用 聚类目标 相似性计算方法 聚类方法分类 划分方法 层次方法 密度方法 网格方法 聚类方法分析 第七章 数据挖掘算法—聚类 聚类算法的要求 Scalability Ability to deal with different types of attributes Ability to handle dynamic data Discovery of clusters with arbitrary shape Minimal requirements for domain knowledge to determine input parameters Able to deal with noise and outliers Insensitive to order of input records High dimensionality Incorporation of user-specified constraints(用户规定的约束,聚类别太大) Interpretability and usability(可解释,可使用) Dissimilarity/Similarity 度量: Similarity is expressed in terms of a distance function, which is typically metric: d(i, j) 对于不同的数据类型,距离函数的定义是非常不同的 区间标度变量(Interval-scaled variables) 二元变量(Binary variables) 标称型、序数型和比例标度型 混合型 四、相似性计算方法—区间标度变量 距离通常是用来作为对象之间相似度和不相似度量的最主要的方法 区间标度是一个粗略线性标度的连续度量。典型的例子包括重量和高度,经度和纬度坐标(聚类房屋),以及大气温度。 四、相似性计算方法—区间标度变量 Some popular ones include: 明考斯基距离(Minkowski distance): where i = (xi1, xi2, …, xip) and j = (xj1, xj2, …, xjp) are two p-dimensional data objects, and q is a positive integer If q = 1, d is 曼哈顿距离(Manhattan distance) 四、相似性计算方法—区间标度变量 If q = 2, d is 欧几里得距离Euclidean distance: Properties d(i,j) ? 0 d(i,i) = 0 d(i,j) = d(j,i) d(i,j) ? d(i,k) + d(k,j) Also, one can use weighted distance, or other disimilarity measures 四、相似性计算方法—二元变量 一个二元变量只有两个状态:0或1,0表示改变量为空,1表示改变量存在。 例如,给出一个描述病人的变量smoker,1表示病人抽烟,0表示病人不抽烟。 我们可以对给定的数据计算相异度矩阵。如果假设所有的二元变量具有相同的权重,我们得到一个两行两列的可能性。 四、相似性计算方法—二元变量 A contingency table for binary data a是对于对象i和j值都为1的变量的数目,b是对于对象i值为1而对象j值为0的变量数目,c是对于对象i值为0而在对于对象j值为1的变量的数目,d是对于对象i和j都为0的变量的数目。变量的总数是p,p=a+b+c+d 四、相似性计算方法—二元变量 对称的二元变量:如果他的两个状态是同等价值的,并有相同的权重,那么该二元变量是对称的,也就是两个取值0或1没有优先权。例如,属性“性别”就是这样的一个例子,它有两个值“女性”和“男性”。 简单匹配系数:Simple matching coefficient (invariant, if the binary variable is symmetric): 四、相似性计算方法—二元变量 不对称二元变量:如果两个状态的输出不是同样重要,那么该二元变量是不对称的。 例如:一个疾病检查的肯定和否定结果。根据惯例,我们将比较重要的输出结果,通常也是出现几率较小的结果编码为1(例如,HIV阳性),而将另一种结果编码为0(例如,HIV阴性)。给定两个不对称的二元变量,两个都取值1的情况被认为比两个都取值0的情况更有意义。因此,这样的二元变量被认为好像只有一个状态。 四、相似性计算方法—二元变量 JACCARD系数:在计算中,负匹配的数目

文档评论(0)

118books + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档