网站大量收购闲置独家精品文档,联系QQ:2885784924

聚类分析实例分析题.docVIP

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
. . 5.2酿酒葡萄的等级划分 5.2.1葡萄酒的质量分类 由问题1中我们得知,第二组评酒员的的评价结果更为可信,所以我们通过第二组评酒员对于酒的评分做出处理。我们通过excel计算出每位评酒员对每支酒的总分,然后计算出每支酒的10个分数的平均值,作为总的对于这支酒的等级评价。 通过国际酿酒工会对于葡萄酒的分级,以百分制标准评级,总共评出了六个级别(见表5)。 表5:葡萄酒等级表 等级 特优 优 优良 良 及格 不及格 分数 95-100 90-94 80-89 70-79 60-69 0-59 在问题2的计算中,我们求出了各支酒的分数,考虑到所有分数在区间[61.6,81.5]波动,以原等级表分级,结果将会很模糊,不能分得比较清晰。为此我们需要进一步细化等级。为此我们重新细化出5个等级,为了方便计算,我们还对等级进行降序数字等级(见表6)。 表6:细化后的葡萄酒等级表 等级 偏优 偏优良 良 中 及格 分数 80-84 75-79 70-74 65-69 60-64 数字等级 5 4 3 2 1 通过对数据的预处理,我们得到了一个新的关于葡萄酒的分级表格(见表7): 表7:各支葡萄酒的等级 编号 红酒 原等级 细化等级 白酒 原等级 细化等级 1号 68.1 2 2 77.9 3 4 2号 74 3 3 75.8 3 4 3号 74.6 3 4 75.6 3 4 4号 71.2 3 3 76.9 3 4 5号 72.1 3 3 81.5 4 5 6号 66.3 2 2 75.5 3 4 7号 65.3 2 2 74.2 3 3 8号 66 2 2 72.3 3 3 9号 78.2 3 4 80.4 4 5 10号 68.8 2 2 79.8 3 4 11号 61.6 2 1 71.4 3 3 12号 68.3 2 2 72.4 3 3 13号 68.8 2 2 73.9 3 3 14号 72.6 3 3 77.1 3 4 15号 65.7 2 2 78.4 3 4 16号 69.9 2 3 67.3 2 2 17号 74.5 3 3 80.3 4 5 18号 65.4 2 2 76.7 3 4 19号 72.6 3 3 76.4 3 4 20号 75.8 3 4 76.6 3 4 21号 72.2 3 2 79.2 3 4 22号 71.6 3 3 79.4 3 4 23号 77.1 3 4 77.4 3 4 24号 71.5 3 3 76.1 3 4 25号 68.2 2 2 79.5 3 4 26号 72 3 3 74.3 3 3 27号 71.5 3 3 77 3 4 28号 79.6 3 4 经过整理,我们初步得到了对于葡萄酒的质量的分类的表格。 考虑到葡萄酒的质量与酿酒葡萄间有比较之间的关系,我们将保留葡萄酒质量对于酿酒葡萄的影响,先单纯从酿酒葡萄的理化指标对酿酒葡萄进行分类,然后在通过葡萄酒质量对酿酒葡萄质量的优劣进一步进行划分。 5.2.2建立模型 在通过酿酒葡萄的理化指标对酿酒葡萄分类的过程,我们用到了聚类分析方法中的ward最小方差法,又叫做离差平方和法。 聚类分析是研究分类问题的一种多元统计方法。所谓类,通俗地说,就是指相似元素的集合。为了将样品进行分类,就需要研究样品之间关系。这里的最小方差法的基本思想就是将一个样品看作P维空间的一个点,并在空间的定义距离,距离较近的点归为一类;距离较远的点归为不同的类。面对现在的问题,我们不知道元素的分类,连要分成几类都不知道。现在我们将用SAS系统里面的stepdisc和cluster过程完成判别分析和聚类分析,最终确定元素对象的分类问题。 建立数据阵,具体数学表示为: QUOTE X=x11?x1m?? 式中,行向量 QUOTE Xi=(xi1,…,x 列向量 QUOTE Xj=x1j,…,xnj ’ 接下来我们将要对数据进行变化,以便于我们比较和消除纲量。在此我们用了使用最广范的方法,ward最小方差法。其中用到了类间距离来进行比较,定义为: QUOTE Dkl=||Xk-XL Ward方法并类时总是使得并类导致的类内离差平方和增量最小。 系统聚类数的确定。在聚类分析中,系统聚类最终得到的一个聚类树,如何确定类的个数,这是一个十分困难但又必须解决的问题;因为分类本身就没有一定标准,人们可以从不同的角度给出不同的分类。在实际应用中常使用下面几种方法确定类的个数。由适当的阀值确定,此处阀值为。 根据样本的散点图直观的确定。当样本所含指标只有2个或3个时,可运用散点图直观观察。如果指标超过3个时,可用主成份法先综合指标。 根据统计量确定分类个数。在SAS中,提供了一些来自方差分析思想的统计

文档评论(0)

hkfgmny + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档