- 1、本文档共4页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数学建模案例分析7消费分布规律的分类概率统计方法建模
§7 消费分布规律的分类
为研究辽宁、浙江、河南、甘肃、青海5省份在某年城镇居民生活消费的分布规律,需要用调查资料对这5个省分类。数据见下表:
指标
省份 X1 X2 X3 X4 X5 X6 X7 X8 辽宁
浙江
河南
甘肃
青海 7.90 39.77 8.49 12.94 19.27 11.05 2.04 13.29
7.68 50.37 11.35 13.30 19.25 14.59 2.75 14.87
9.42 27.93 8.20 8.14 16.17 9.42 1.55 9.76
9.16 27.98 9.01 9.32 15.99 9.10 1.82 11.35
10.06 28.64 10.52 10.05 16.18 8.39 1.96 10.81 其中,X1:人均粮食支出; X2:人均副食品支出;
X3:人均烟、酒、茶支出; X4:人均其它副食品支出;
X5:人均衣着商品支出; X6:人均日用品支出;
X7:人均燃料支出; X8:人均非商品支出。
在科学研究、生产实践、社会生活中,经常会遇到分类的问题。例如,在考古学中,要将某些古生物化石进行科学的分类;在生物学中,要根据各生物体的综合特征进行分类;在经济学中,要考虑哪些经济指标反映的是同一种经济特征;在产品质量管理中,要根据各产品的某些重要指标而将其分为一等品,二等品等等。
这些问题可以用聚类分析方法来解决。
聚类分析的研究内容包括两个方面,一是对样品进行分类,称为Q型聚类法,使用的统计量是样品间的距离;二是对变量进行分类,称为R型聚类法,使用的统计量是变量间的相似系数。
设共有个样品,每个样品有个变量,它们的观测值可以表示为
一、样品间的距离
下面介绍在聚类分析中常用的几种定义样品与样品间的距离。
Minkowski 距离
2、绝对值距离
3、欧氏距离
二、变量间的相似系数
相似系数越接近1,说明变量间的关联程度越好。常用的变量间的相似系数有
夹角余弦
相关系数
值得注意的是,当指标的测量值相差较大时,直接使用以上各式计算距离或相似系数常使数值较小的变量失去作用,为此需应先对数据进行标准化,然后再用标准化的数据来计算。标准化的具体方法是:
其中
三、类与类之间的距离
用和分别代表两个类,它们所包含的样品个数分别记为和,类和之间的距离记为。下面给出三种最常用的定义方法。
1、最短距离
类与类之间的最短距离有如下的递推公式,设为由和合并所得,则与其它类的最短距离为
2、最长距离
类与类之间的最长距离有如下的递推公式,设为由和合并所得,则与其它类的最长距离为
3、类平均距离
类与类之间的类平均距离有如下的递推公式,设为由和合并所得,则与其它类的类平均距离
,其中 。
以上类与类之间的距离,不但适用于Q型聚类,同样也适合于R型聚类,这只要将用变量间的相似系数代替就行了。为简单起见以下均记成。
系统聚类法是目前最流行的方法。
有了样品间的距离(或变量间的相似系数)以及类与类之间的距离后,便可进行系统聚类,基本步骤如下:
1、个样品(或个变量)一开始看作类(类),计算两两之间的距离(或相似系数),构成一个对称矩阵,此时显然有;
2、选择中对角线元素以外的下三角部分中的最小元素(相似系数矩阵则选择对角线元素以外的最大者),设其为,则将和合并为一个新类。在中划去和所对应的两行与两列,并加入由新类与剩下的未聚合的各类之间的距离所组成的一行和一列,得到一个新的矩阵,它是降低了一阶的对称矩阵;
3、由出发,重复步骤2得到对称矩阵,依此类推,直到个样品(或个变量)聚为一个大类为止;
4、在合并过程中记下两类合并时样品(或变量)的编号以及合并两类时的距离(或相似系数)的大小,并绘成聚类图,然后可根据实际问题的背景和要求选定相应的临界水平以确定类的个数。
上面是一个Q型聚类问题,现在用系统聚类法来解决。将每个省份看成一个样品,并以1,2,3,4,5分别表示辽宁、浙江、河南
您可能关注的文档
- 教育信息化十年发展规划20112020(正式颁布).doc
- 教育学原理之论述题及案例分析(全).doc
- 教育学名词解释简答论述案例分析.doc
- 教育学心理学经典复习资料.doc
- 教育学教育心理学案例分析50例.doc
- 教育心理学复习大纲 教师资格考试.doc
- 教育技术杂志评级投稿邮箱及部分学习网站20110613.doc
- 散文有关理论和资料.doc
- 敦煌网LED灯具跨境电商知识LED灯具行业外贸市场分析.docx
- 敬业达外保温施工方案(A2).doc
- 中国国家标准 GB/T 18233.4-2024信息技术 用户建筑群通用布缆 第4部分:住宅.pdf
- GB/T 18233.4-2024信息技术 用户建筑群通用布缆 第4部分:住宅.pdf
- GB/T 18978.210-2024人-系统交互工效学 第210部分:以人为中心的交互系统设计.pdf
- 《GB/T 18978.210-2024人-系统交互工效学 第210部分:以人为中心的交互系统设计》.pdf
- 中国国家标准 GB/T 18978.210-2024人-系统交互工效学 第210部分:以人为中心的交互系统设计.pdf
- GB/T 16649.2-2024识别卡 集成电路卡 第2部分:带触点的卡 触点的尺寸和位置.pdf
- 《GB/T 16649.2-2024识别卡 集成电路卡 第2部分:带触点的卡 触点的尺寸和位置》.pdf
- 中国国家标准 GB/T 16649.2-2024识别卡 集成电路卡 第2部分:带触点的卡 触点的尺寸和位置.pdf
- GB/T 17889.4-2024梯子 第4部分:铰链梯.pdf
- 《GB/T 17889.4-2024梯子 第4部分:铰链梯》.pdf
文档评论(0)