- 1、本文档共57页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
R语言基础培训第二讲常用统计分析解读
基于R的基本统计分析;内容提要;描述分析(Descriptive statistics);标准差(std.dev)和标准误(SE.mean);标准差(std.dev)和标准误(SE.mean);在实际的应用中,标准差主要有两点作用,一是统计量样本离散程度的表征;二是用来对样本进行标准化处理,即样本观察值减去样本均值,然后除以标准差,这样就变成了标准正态分布。标准误的作用主要是用来做区间估计,常用的估计区间是均值加减n倍的标准误(例如95%的置信区间是:均值+1.96*SE);95% CI:
假设上面这个随机抽样估计学生身高的例子,抽样100次,每次抽10个学生测量身高,均值估计值及标准误为 152cm±12cm。但有时需要表示为估计量的95%的置信区间[152cm-1.96*12cm,152cm+1.96*12cm]。可以解释为,如果从再从总体中抽样100次(每次抽样10个),产生100个平均值,这100个平均值将有95次落在[152cm-1.96*12cm,152cm+1.96*12cm]这个范围内,5次落在这个范围外,如果抽样次数越多,这个推断越准确。这个来源于中心极限定理的应用:任何分布(总体)抽样n次,每次抽样的和符合正态分布。通俗一点说, 不管是学校的学生身高是怎么分布, 每次随机抽取10个求和, 抽取n次,这n个身高总和是符合正态分布的。平均身高为身高总和除于10,所以平均身高也是正态分布的。正态分布双尾95%的分界点所对应的值刚好是1.96。
;;峰度(Kurtosis);偏度(Skewness);频数表(Frequency table)分析;频数表分析例子;方差分析ANOVA;单因素方差分析;## Tukey HSD 方法 ##
install.packages(multcomp)
library(multcomp)
tuk - glht(fit, linfct = mcp(Treat = Tukey))
summary(tuk) # standard display
tuk.cld - cld(tuk) # letter-based display
opar - par(mai=c(1,1,1.5,1))
plot(tuk.cld)
par(opar);双因素(无重复)方差分析 ;多重比较;重复试验的双因素方差分析;协方差分析(analysis of covariance);单因素协方差分析;双因素协方差分析;t检验;3.5.1 单样本检验;25;卡方检验(χ 2 test);卡方检验;卡方检验;卡方检验(列联表);练习四;练习四 答案;#问题4
t.test(df$weight, mu = 60, alternative = two.sided)
wt.m-subset(df$weight,df$Sex==‘男)
wt.f-subset(df$weight,df$Sex==‘女)
var.test(wt.m,wt.f) #等方差检验
t.test(wt.m,wt.f, paired=F)
#问题5
summary(df$Sex)
ct-c(87, 33)
pt - c(1.2/2.2, 1.0/2.2)
chisq.test(ct, p = pt);线性回归;3.6.1 简单线性回归;计算校正R2;多项式回归;多元线性逐步回归;最优线性回归方程为:
y= -649.779 + 14.592×x1 + 6.841×x2 + 9.329×x3
回归方程表明:对于川农 16 号小麦而言,当 x2 和 x3 固定时,穗数 x1 每增加 1万/亩,产量 y 将平均增加 14.592Kg/亩;当 x1 和 x3 固定时,每穗粒数 x2 每增加 1粒,产量 y 将平均增加 6.841Kg/亩;当 x1 和 x2 固定时,千粒重 x3 每增加 1g,产量y 将平均增加 9.329 Kg/亩。
;自变量的作用主次;交互作用多元线性回归;练习四;练习四 答案;#问题4
t.test(df$weight, mu = 60, alternative = two.sided)
wt.m-subset(df$weight,df$Sex2==1)
wt.f-subset(df$weight,df$Sex2==2)
var.test(wt.m,wt.f) #等方差检验
t.test(wt.m,wt.f, paired=F)
#问题5
summary(df$Sex)
ct-c(87, 33)
pt - c(1.2/2.2, 1.0/2.2)
chisq.test(ct, p = pt);相关分析;Pearson、Spearman和Kendall相
文档评论(0)