- 1、本文档共19页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
我接触R的时间算是不短了,已经两年多了。期间断断续续的看了些R网站上的材料。现在已经习惯了用R做数据分析了,并且越来越喜欢用R来做分析了。之前我用过SAS,SPSS也试过Stata,但是这三个软件都没有专门的遗传统计模块(至少国内流行的盗版里没有)。所以和其它专业相比,我想R对我们也许更有用些。
COS论坛里提到R在genetic statistics里的应用的帖子很少。我在这里写一些我平时用到的遗传统计方面的package的说明,一来算是个人小结再者算是抛砖引玉吧,希望COS论坛里的各位多写些相关的东西。
Introduction. CRAN Task View: Statistical Genetics
CRAN Task View当中有一个单独的Genetics部分,里面列出了40个遗传统计相关的Package和相关链接。这足可以看出R在遗传统计学当中的影响和作用。
里面核心的core package有以下三个: genetics, gap, 和haplo.stats。还有一个我经常用到的包是DGCgenetics,算是对genetics包的扩展。以后我会提到以上几个包里面的一些函数。
大致包括以下几方面的内容:
1. 以上几个package对数据格式的要求;
2. 多态位点的基本信息(MAF等);
3. Hardy-Weinberg平衡检验;
4. LD的计算;
5. 关联研究常用检验方法;
6. Power的计算;
…
先说一下前面提到的几个包的安装吧,其实很简单。一个一个用install.packages()函数来安装当然可以。相对简单点的方法是用CRAN Task Views里提到的ctv包来批量安装。
install.packages(ctv) #首先安装ctv package
library(ctv) #载入ctv package
install.views(Genetics,coreOnly = TRUE) #安装genetics, gap, haplo.stats三个核心包及依赖的包。如果不加捜牯?湯祬吽啒居则会安装所有的40个遗传统计相关的package。
install.packages (genetics, coreonly = TRUE)
DGCgenetics包的下载地址是http://www-gene.cimr.cam.ac.uk/clayton/software/DGCgenetics_1.0.zip。你需要先下载这个包,然后本地安装。方法大家应该都知道,Rgui的Packages菜单的Install package(s) from local zip
。files
数据格式(1)
遗传研究收集的数据有自己的特点。往往是数据集中即包含一般的表型数据(分类和连续变量;如血压水平,BMI和性别等),又包括基因型数据。分析时往往还需要用到不同的遗传模型,什么显性、隐形、加性模型,或者是按照分类变量来处理(有时候也称为共显性模型)。用SAS或SPSS分析遗传数据时,如果要用不同的遗传模型进行数据分析的话,必须先进行数据转换,过程相对复杂。
R中的genetics包专门为基因型数据提供了一个新的class(类),你可以很方便的用genotype()或makeGenotypes()函数将不同形式的初始基因型数据转换成基因型数据,并为数据加上genotype类属性。genetics包还提供了相应的summary.genotype()和plot.genotype()函数。你可以很方便的用summary()函数获取基因型数据的基因型频率、等位基因频率等基本信息,用plot()函数做出基因型的柱状图。
先说一下genotype()函数,该函数是genetics包里最基本的函数。可以将以下四种形式的初始基因型数据转换成便于分析的带有genotype class的数据。
1. 以一个字符分隔的向量
E.g.
g1 - genotype(c(D/D,D/I,D/D,I/I,D/D,NA))
g2 - genotype(c(C-C,C-T,C-C,T-T,C-C,\),sep=-)
2. 可以按某一位置分隔的向量
E.g.
g3 - genotype(c(DD,DI,DD,II,\),sep=1)#sep=1表示在位置1后分成两个allele
3. 两个分开的向量
E.g.
allele1 - c(D,D,D,I,\)
allele2 - c(D,I,D,I,\)
g4 - genotype(allele1, allele2)
4. 数据框或矩阵中的两列
data - data.frame(allele1 = c(D,D,D,I,\),
您可能关注的文档
- 2019年PEP人教版小学六年级英语上册期末试卷及答案.doc
- 2019年人教版九年级上册数学期末试卷.doc
- 2019年人教版九年级物理上册期末考试题及答案.doc
- 2019年人教版小学六年级数学上册期末测试题.doc
- 2019年人教版小学数学三年级上册期末测试题.doc
- 2019年人教版小学数学四年级上册期末试题及答案.doc
- 2019年教科版小学六年级上册科学期末试卷及答案.doc
- 2019年精选语文五年级上7 海上日出语文版习题精选十一.doc
- 2019年部编版小学语文六年级上册课件第五单元习作围绕中心意思写.ppt
- 2019年高三物理一轮复习二模三模试题分项解析专题02相互作用第01期含解析1.doc
- 中国国家标准 GB/T 45133-2025气体分析 混合气体组成的测定 基于单点和两点校准的比较法.pdf
- 《GB/T 45133-2025气体分析 混合气体组成的测定 基于单点和两点校准的比较法》.pdf
- 中国国家标准 GB/T 43707-2025科学数据溯源元数据.pdf
- 《GB/T 43707-2025科学数据溯源元数据》.pdf
- GB/T 43707-2025科学数据溯源元数据.pdf
- GB/T 43710-2025科学数据安全审计要求.pdf
- 中国国家标准 GB/T 43710-2025科学数据安全审计要求.pdf
- 《GB/T 43710-2025科学数据安全审计要求》.pdf
- 中国国家标准 GB/T 45222-2025食品安全事故应急演练要求.pdf
- GB/T 45222-2025食品安全事故应急演练要求.pdf
文档评论(0)