大数据聚类分析.pptxVIP

  1. 1、本文档共53页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据技术概论大数据聚类分析技术创新,变革未来大数据聚类分析全文共53页,当前为第1页。什么是聚类分析?大数据聚类分析全文共53页,当前为第2页。聚类分析将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程聚类(簇):数据对象的集合在同一个聚类(簇)中的对象彼此相似不同簇中的对象则相异什么是聚类分析?大数据聚类分析全文共53页,当前为第3页。聚类是一种无指导的学习:没有预定义的类编号聚类分析的数据挖掘功能作为一个独立的工具来获得数据分布的情况作为其他算法(如:特征和分类)的预处理步骤聚类分析的典型应用大数据聚类分析全文共53页,当前为第4页。模式识别空间数据分析商务应用中万维网……聚类分析的典型应用大数据聚类分析全文共53页,当前为第5页。市场销售: 帮助市场人员发现客户中的不同群体,然后用这些知识来开展一个目标明确的市场计划;土地使用: 在一个陆地观察数据库中标识那些土地使用相似的地区;保险: 对购买了汽车保险的客户,标识那些有较高平均赔偿成本的客户聚类分析的典型应用大数据聚类分析全文共53页,当前为第6页。城市规划: 根据类型、价格、地理位置等来划分不同类型的住宅;地震研究: 根据地质断层的特点把已观察到的地震中心分成不同的类;什么是好的聚类分析?大数据聚类分析全文共53页,当前为第7页。什么是好的聚类分析?一个好的聚类方法要能产生高质量的聚类结果——簇,这些簇要具备以下两个特点:高的簇内相似性低的簇间相似性 聚类结果的好坏取决于该聚类方法采用的相似性评估方法以及其具体实现;聚类方法的好坏还取决于该方法发现隐含模式的能力;大数据聚类分析全文共53页,当前为第8页。数据挖掘对聚类分析的要求 (1)大数据聚类分析全文共53页,当前为第9页。可扩展性(可伸缩性)大多数来自于机器学习和统计学领域的聚类算法在处理数百条数据时能表现出高效率,但是……处理不同数据类型的能力数字型;二元类型,分类型/标称型,序数型,比例标度型等等发现任意形状的能力基于距离的聚类算法往往发现的是球形的聚类,其实现实的聚类是任意形状的数据挖掘对聚类分析的要求 (1)大数据聚类分析全文共53页,当前为第10页。用于决定输入参数的领域知识最小化对于高维数据,参数很难决定,聚类的质量也很难控制处理噪声数据的能力(抗噪性、健壮性、容错性)对空缺值、离群点、数据噪声不敏感数据挖掘对聚类分析的要求 (2)大数据聚类分析全文共53页,当前为第11页。对于输入数据的顺序不敏感同一个数据集合,以不同的次序提交给同一个算法,应该产生相似的结果高维性高维的数据往往比较稀松,而且高度倾斜数据挖掘对聚类分析的要求 (2)大数据聚类分析全文共53页,当前为第12页。基于约束的聚类找到既满足约束条件,又具有良好聚类特性的数据分组可解释性和可用性聚类要和特定的语义解释和应用相联系聚类分析中的数据类型和距离计算大数据聚类分析全文共53页,当前为第13页。聚类分析中的数据类型许多基于内存的聚类算法采用以下两种数据结构数据矩阵(对象-变量结构,n*p):用p个变量来表示n个对象也叫二模矩阵,行与列代表不同实体大数据聚类分析全文共53页,当前为第14页。聚类分析中的数据类型相异度矩阵(对象-对象结构,n*n):存储n个对象两两之间的临近度也叫单模矩阵,行和列代表相同的实体大数据聚类分析全文共53页,当前为第15页。相异度计算大数据聚类分析全文共53页,当前为第16页。许多聚类算法都是以相异度矩阵为基础,如果数据是用数据矩阵形式表示,则往往要将其先转化为相异度矩阵。相异度计算许多聚类算法都是以相异度矩阵为基础,如果数据是用数据矩阵形式表示,则往往要将其先转化为相异度矩阵。相异度d(i,j)的具体计算会因所使用的数据类型不同而不同,常用的数据类型包括:区间标度变量、二元变量、标称型、序数型、比例标度型变量、混合类型的变量大数据聚类分析全文共53页,当前为第17页。区间标度变量大数据聚类分析全文共53页,当前为第18页。区间标度度量是一个粗略线性标度的连续度量,比如重量、高度等选用的度量单位将直接影响聚类分析的结果,因此需要实现度量值的标准化,将原来的值转化为无单位的值,给定一个变量f的度量值,可使用以下方法进行标准化:区间标度变量大数据聚类分析全文共53页,当前为第19页。计算平均的绝对偏差其中计算标准化的度量值(z-score)使用平均的绝对偏差往往比使用标准差更具有健壮性对象间的相似度和相异度(1)对象间的相似度和相异度是基于两个对象间的距离来计算的Euclidean距离Manhattan距离大数据聚类分析全文共53页,当前为第20页。对象间的相似度和相异度(2)Manhattan距离和Euclidean距离的性质d(i,j) ? 0d(i,i) = 0d(i,j) = d(j,i)d(i

文档评论(0)

孙二娘 + 关注
实名认证
文档贡献者

专注文档领域

1亿VIP精品文档

相关文档