- 1、本文档共10页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
统计方法在生物信息学“精细定位”(fine-mapping)中的应用剖析.docx
【生物大数据】统计方法在生物信息学“精细定位”(fine-mapping)中的应用之前我们发过一篇文章,文章中说如何寻找与某个疾病相关的遗传信息,简单复习一下:我们每个人所带的基因是差不多的,之所以有的人卷发,有的人直发,有这么丰富多彩的变化,就是因为一些基因发生了改变。目前,科学家已经对糖尿病、冠心病、肺癌、前列腺癌、肥胖、精神病等多种复杂疾病进行了GWAS分析,并找到了疾病相关的多个易感位点。携带某种基因易感位点的人,就会有很大概率换上某种疾病。我们通过全基因组关联分析(GWAS)找出来与某个疾病关联最大的基因位点集合(SNP或说variant),GWAS分析的思想如下:原文请戳这里:?【数说·大数据圈】机器学习在生物大数据应用的一个例子到这里,其实并没有结束,最终找出来的若干基因易感位点(我们不妨称为易感SNP集合,每一个位点,简单理解为一个SNP吧),是一个集合,里面包含了可能不止一个易感位点。它们都是在统计意义上的显著,是有一定犯错概率的,也没有经过生物学的证实。本文要说的精细定位,就是要进一步缩减候选的基因易感位点,排除掉一些“假”的位点。精细定位,叫做fine-mapping。必备前提在做fine-mapping之前,有三个前提一定要具备:第一,区域中所有的common SNP都已经被genotyped或者imputed。这个前提是为了确保真正致病的那个SNP已经包含在这“若干基因易感位点”之中了。第二,已经做过严格的quality control。第三,大样本,确保提供足够的power。满 足必备前提之后,我们进行fine-mapping,分成两部分,statistical fine-mapping和functional fine-mapping。本文的重点是statistical fine-mapping,简单介绍一下统计方法在fine-mapping中的应用。statistical fine-mapping这一部分是本文的重点。在此步骤中,我们对GWAS中选出来的易感SNP集合进行统计分析,比较、排序其中SNP的重要次序,甚至删除掉一些不重要的SNP,缩小易感SNP集合的范围。大概有三种方法,一一列举如下:方法1:conditional regression我们在回归模型中,将最显著的那个SNP作为协变量进行控制,看其他SNP对疾病的影响是否还显著。选出P值最显著的几个易感SNP(P值通常要小于10的-8次方,因为要校正,所以视SNP的数量决定,参考?浅议P值校正),缩小范围,精细定位。我们可以在plink中利用命令:plink -bfilemydata --linear --condition covariateSNP来实现。下面是一个例子, Fine mapping analysis of HLADP/DQ gene clusterson chromosome 6 reveals multiple susceptibility loci for HBV infection这篇文献中,作者想要看一下前人发现的,HLA-DP/DQ这两个基因簇与乙型肝炎(HBV)的显著关系,是否可以再具体定位到某个SNP或者block中。注:染色体、基因、block和SNP这四者大致是什么关系?(不专业的比喻,帮助理解一下,勿喷哈~)如果把SNP看做是一个具体的房子或者建筑物,那么block就是一片小区,基因大概就是一个城市,染色体差不多是一个省了。其中就使用到了conditional regression的方法垂直轴代表作为协变量的基因簇,水平轴代表需要detected的基因簇。白色代表显著,灰色代表不显著:HBV = HLA-DP + (HLA-DQ + other covariates)HBV = HLA-DQ + (HLA-DP + other covariates)从两个白色区域可以看出,HLA-DP和HLA-DQ都是显著的,因此,作者的第一个结论是:之前发现的HLA-DP和HLA-DQ两个基因簇对乙型肝炎的显著影响,是相互独立的。此外,作者又对HLA-DP上的三个block做了conditional regression:block 3位于HLA-DPA1,block 5位于HLA-DPB1,block 4位于HLA-DPA1和HLA-DPB1的overlap 区域。blocklocationblock 3in HLA-DPA1block 4in HLA-DPA1/B1 overlapping regionblock 5in HLA-DPB1首先以block 3作为covariate,看其他两个是否显著:HBV = block 4 + ( block 3 + other covariates)HBV = bloc
您可能关注的文档
最近下载
- 5辨证论治痛经【30页】.pptx
- 35-预应力混凝土铁路桥简支梁产品生产许可证实施细则-编号.PDF
- 人教版高中生物选择性必修2全册课件.pptx
- 全国各省份城市列表-可vlookup版.xls VIP
- 自考马克思主义基本原理概论总结最全03709 .docx VIP
- 肿瘤患者腹泻的症状护理ppt.pptx
- 高中地理教研组工作计划2025(5篇) .pdf VIP
- Unit 6 A Day in the Life 综合素质评价2024-2025学年度 人教版(2024)英语七年级上册.doc VIP
- 中国文化概论(第四版)第五章.pptx
- 通信原理课设2FSK数字信号频带传输系统的设计与建模.pdf
文档评论(0)