- 1、本文档共14页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一篇文章透彻解读聚类分析及案例实操
【数盟致力于成为最卓越的数据科学社区,聚焦于大数
据、分析挖掘、数据可视化领域,业务范围:线下活动、在
线课程、猎头服务、项目对接】 【限时优惠福利】数据定义
未来,2016 年 5 月 12 日-14 日 DTCC2016 中国数据库技术
大会登陆北京!大会云集了国内外数据行业顶尖专家,设定
2 个主会场,24 个分会场,将吸引共 3000 多名 IT 人士参会!
马上领取数盟专属购票优惠 88 折上折,猛戳文末“阅读原文”
抢先购票!
摘要:本文主要是介绍一下 SAS 的聚类案例,希望大家都
动手做一遍,很多问题只有在亲自动手的过程中才会有发现
有收获有心得。 这里重点拿常见的工具 SAS+R 语言 +Python
介绍 !
1 聚类分析介绍 1.1 基本概念聚类就是一种寻找数据之间
一种内在结构的技术。聚类把全体数据实例组织成一些相似
组,而这些相似组被称作聚类。处于相同聚类中的数据实例
彼此相同,处于不同聚类中的实例彼此不同。聚类技术通常
又被称为无监督学习,因为与监督学习不同,在聚类中那些
表示数据类别的分类或者分组信息是没有的。通过上述表述,
我们可以把聚类定义为将数据集中在某些方面具有相似性
的数据成员进行分类组织的过程。因此,聚类就是一些数据
实例的集合,这个集合中的元素彼此相似,但是它们都与其
他聚类中的元素不同。在聚类的相关文献中,一个数据实例
有时又被称为对象,因为现实世界中的一个对象可以用数据
实例来描述。同时,它有时也被称作数据点 (Data Point) ,因
为我们可以用 r 维空间的一个点来表示数据实例, 其中 r 表
示数据的属性个数。下图显示了一个二维数据集聚类过程,
从该图中可以清楚地看到数据聚类过程。虽然通过目测可以
十分清晰地发现隐藏在二维或者三维的数据集中的聚类,但
是随着数据集维数的不断增加,就很难通过目测来观察甚至
是不可能。
1.2 算法概述
目前在存在大量的聚类算法,算法的选择取决于数据的类型、
聚类的目的和具体应用。大体上,主要的聚类算法分为几大
类。
聚类算法的目的是将数据对象自动的归入到相应的有意义
的聚类中。追求较高的类内相似度和较低的类间相似度是聚
类算法的指导原则。一个聚类算法的优劣可以从以下几个方
面来衡量:
(1) 可伸缩性: 好的聚类算法可以处理包含大到几百万个对象
的数据集 ;(2) 处理不同类型属性的能力:许多算法是针对基
于区间的数值属性而设计的,但是有些应用需要针对其它数
据类型 (如符号类型、 二值类型等 )进行处理 ;(3) 发现任意形状
的聚类:一个聚类可能是任意形状的,聚类算法不能局限于
规则形状的聚类 ;(4) 输入参数的最小化:要求用户输入重要
的参数不仅加重了用户的负担, 也使聚类的质量难以控制 ;(5)
对输入顺序的不敏感:不能因为有不同的数据提交顺序而使
聚类的结果不同 ;(6) 高维性:一个数据集可能包含若干维或
属性,一个好的聚类算法不能仅局限于处理二维或三维数据,
而需要在高维空间中发现有意义的聚类 ;(7) 基于约束的聚类:
在实际应用中要考虑很多约束条件,设计能够满足特定约束
条件且具有较好聚类质量的算法也是一项重要的任务 ;(8) 可
解释性:聚类的结果应该是可理解的、可解释的,以及可用
的。
1.3 聚类应用在商业上, 聚类分析被用来发现不同的客户群,
并且通过购买模式刻画不同的客户群的特征。聚类分析是细
分市场的有效工具,同时也可用于研究消费者行为,寻找新
的潜在市场、选择实验的市场,并作为多元分析的
文档评论(0)