SAS系统和数据分析全随机设计Kruskal-Wallis秩和检验参考.doc

下载文档 降价啦

4
0
约1.41万字
约 13页
2018-03-15 发布于贵州
举报
版权申诉
保障服务

SAS系统和数据分析全随机设计Kruskal-Wallis秩和检验参考.doc

1、本文档共13页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

SAS系统和数据分析全随机设计Kruskal-Wallis秩和检验参考

完全随机设计Kruskal-Wallis秩和检验完全随机设计的Kruskal-Wallis秩和检验方差分析过程关注三个或更多总体的均值是否相等的问题，数据是被假设成具有正态分布和相等的方差，此时F检验才能奏效。但有时采集的数据常常不能完全满足这些条件。在两两样本比较时，我们不妨尝试将数据转换成秩统计量，因为秩统计量的分布与总体分布无关，可以摆脱总体分布的束缚。在比较两个以上的总体时，广泛使用非参数的Kruskal-Wallis秩和检验，它是对两个以上的秩样本进行比较，本质上它是两样本时的Wilcoxon秩和检验方法在多于两个样本时的推广。 Kruskal-Wallis秩和检验，首先要求从总体中抽取的样本必须是独立的，然后将所有样本的值混合在一起看成是单一样本，再把这个单一的混合样本中的值从小到大排序，序列值替换成秩值，最小的值给予秩值1，有结值时平分秩值。将数据样本转换成秩样本后，再对这个秩样本进行方差分布，但此时我们构造的统计量KW不是组间平均平方和除以组内平均平方和，而是组间平方和除以全体样本秩方差。这个KW统计量是我们判定各组之间是否存在差异的有力依据。设有组样本，是第组样本中的观察数，是所有样本中的观察总数，是第组样本中的秩和，是第组样本中的第个观察值的秩值。需要检验的原假设为各组之间不存在差异，或者说各组的样本来自的总体具有相同的中心或均值或中位数。在原假设为真时，各组样本的秩平均应该与全体样本的秩平均比较接近。所以组间平方和为组间平方和 (29.1) 恰好是刻画这种接近程度的一个统计量，除以全体样本秩方差，可以消除量纲的影响。样本方差的自由度为。所以，全体样本的秩方差为全体样本的秩方差= = = = = (29.2) 因此，Kruskal-Wallis秩和统计量KW为： (29.3) 如果样本中存在结值，需要调整公式(4.3.3)中的KW统计量，校正系数C为： (29.4) 其中，第j个结值的个数。调整后的KWc统计量为： (29.5) 如果每组样本中的观察数目至少有5个，那么样本统计量KWc非常接近自由度为的卡方分布。因此，我们将用卡方分布来决定KWc统计量的检验。例29.1某制造商雇用了来自三个本地大学的雇员作为管理人员。最近，公司的人事部门已经收集信息并考核了年度工作成绩。从三个大学来的雇员中随机地抽取了三个独立样本，见表29.1中的第2、4、6列所示。制造商想知道来自这三个不同的大学的雇员在管理岗位上的表现是否有所不同。表29.1 来自三个不同大学的雇员得分及统一秩值雇员大学A 统一编秩大学B 统一编秩大学C 统一编秩 1 25 3 60 9 50 7 2 70 12 20 2 70 12 3 60 9 30 4 60 9 4 85 17 15 1 80 15.5 5 95 20 40 6 90 18.5 6 90 18.5 35 5 70 12 7 80 15.5 75 14 秩和组A秩和 95 组B秩和 27 组C秩和 88 为了计算KW统计量，我们首先必须将来自三个大学的20名雇员统一按考核成绩编排秩值，见表29.1中的第3、5、7列所示。本例中，7，6，7，20，95，27，88，3，三个总体的考核成绩分布是相同的。我们用(29.3)式计算KW统计量为：用(29.4)式计算校正系数C，从表29.1中我们可以发现，相等成绩值和相等的个数分别为60分3个，70分3个，80分2个，90分2个。所以：调整后的KWc为：查表可知道，自由度为的卡方分布，在显著水平下，分布的上尾临界值为5.99，由于8.985.99，因此拒绝原假设。所以，秩和最低的B组至少与秩和最高的A组是不同的。 freq频数过程 Freq频数过程可以生成单向和n向的频率表和交叉表。对于双向表（二维表），该过程计算检验统计量和关联度。对于n向表，该过程进行分层分析，计算每一层和交叉层的统计量。这些频数也能够输出到SAS数据集里。 freq过程说明 proc freq过程一般由下列语句控制： proc freq data=数据集选项; by 变量列表 ; tables 交叉表的表达式 /选项; weight 变量; output out=输出数据集输出统计量列表; run ; 该过程proc freq语句是必需的。其余语句是供选择的。另外，该过程只能使用一个output语句。 proc freq语句的选项 order=freq/data/internal/formatted——规定变量水平的排列次序。freq表示按频数下降的次序，data表示按输入数据集中出现的次序，internal表示按非格式化值的次序（缺省值）