- 1、本文档共4页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于SPSS的聚类分析应用
…~… 一……~……一……一…一 j 磊瞧U下鞋一脑阀’。‘
基于 SPSS的聚类分析应用
吕卫平,张晓梅
(龙岩学院数学与计算机科学学院 福建 龙岩 364000)
【摘 要 】:利用SPSS的聚类分析功能对全国31个省市的交通事故情况进行分类,选取其中的发
生数、死亡数、受伤人数、直接财产损失四个指标进行分析研究,比较分析后根据所给出数据对各地区
交通情况进行分类,以便给交通管理部门制定政策措施给出参考意见。
【关键字】:聚类分析;K—Means聚类;交通情况
1绪论 该命令,也可对聚类过程设置各种参数进行人为的干
聚类分析是直接比较各事物之间的性质,将性质 预5【】o
相近的归位一类,将事物差别较大的归于不同类的分 进行快速样本聚类首先要选择用于聚类分析的
析技术,它是数据分析中的一种重要技术,它的应用 变量和类数 。参与聚类分析的变量必须是数值型变
极为广泛 【。许多领域 中都会涉及聚类分析方法的应 量,且至少要有一个。为了清楚地表明各观测量最后
用与研究工作。例如:在科学数据探测、信息检索、文 聚到哪一类,还应该指定一个表 明观测量特征的变量
本挖掘、空间数据库分析、Web数据分析、医学诊断、 作为标识变量,例如编号、姓名之类的变量 。聚类数必
生物学等4l1方面的数据挖掘应用软件 中,聚类分析技 须大于等于 2,但聚类数不能大于数据文件中的观测
术都起着重要作用 。在商业领域,聚类可 以帮助市场 量数 。如果选择了n个数值型变量参与聚类分析,最
分析人员从消费者数据库 中分出不同的消费群体来, 后要求聚类数为k。那么可以由系统首先选择个观测
并且概括出每一类消费者的消费模式或者说习惯,发 量 (也可 以由用户指定)作为聚类的种子,n个变量组
现不同类型的客户群。聚类还可以用来从地理数据库 成 n维空间。每个观测量在 n维空间中是个点。k个事
中识别出具有相似土地用途的区域;可以从保险公司 先指定的观测量就是k个聚类 中心点,也称为初始类
的数据库 中发现汽车保险中具有较高索赔概率的群 中心。按照距这几个类中心的距离最小原则把观测量
体;还可以从一个城市的房地产信息数据库中,根据 分派到各类中心所在的类中;形成第一次迭代形成的
户型、房价及地理位置将房地产分成不同的类等。而 k类。根据组成每一类的观测量计算各变量均值,每一
对于大样本的聚类分析,传统的各种聚类分析方法虽 类中的n个均值在n维空间中又形成k个点,这就是
然能够得到多个分类解 ,但执行效率并不十分理想, 第二次迭代的类中心,按照这种方法依次迭代下去,
本文要介绍的K—Means聚类方法则能有效地解决该 直到达到指定的迭代次数或中止迭代的判据要求时,
问题,它能快速的把各观测量分到各类 中去。K—Means 迭代停止,聚类结束 。
聚类 (也称快速聚类),它仍将数据看成 k维维空间上 3基于SPSS的聚类分析在我国交通事故问题
的点,仍 以距离作为测度个体 “亲疏程度 ”的指标,并 中的应用
通过牺牲多个解为代价换得高的执行效率。 3.1、基本数据
本文主要应用SPSS (即社会科学统计软件包)的 本文以2009年全国各地区交通事故的数据为
聚类分析功能,用K—Means聚类讨论基于 SPSS的聚 例,利用SPSS的聚类分析功能对全国31个省市的交
类分析在我国交通事故中的应用。 通事故情况进行分类。首先建立数据文件,定义变量
2基本理论 名:发生数、死亡数、受伤人数、直接财产损失的变量
K—Means聚类执行快速样本聚类,使用k均值分 名分别为X1、X2、X3、X4,然后输入原始数据,如表 1
类法对观测量进行聚类。可完全使用系统默认值执行 所示:
福建瘩教育厅B类科技研 究项 目(批准号:CJB122121);龙岩学院校立服务海西面上项 目(批准号:LYXY2011069)
· 20·福建电脑 I2013年第9期
文档评论(0)