网站大量收购独家精品文档,联系QQ:2885784924

一个真菌基因组分析及表达谱分析项目方案.pdfVIP

一个真菌基因组分析及表达谱分析项目方案.pdf

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一个真菌基因组分析及表达谱分析项目方案

“一个真菌基因组分析及表达谱分析”项目方案 一,基因组组装及基因预测、注释 1.质控 利用NGStoolkit 质控软件,对原始数据的测序质量进行评估,去除低质量 数据和测序接头。得到clean data,并利用fastqc 对质控后的数据进行做数据 质量图形,评估数据质量和GC 含量等参数。对数据量和特性进行详细统计。 2. 基因组组装 本团队将利用SPAdes 3.0.0 (http://bioinf.spbau.ru/spades)软件对真 菌基因组进行组装。SPAdes 3.0.0 是一款快速、高效的基因组拼接软件,可适 用于单细胞或非单细胞测序数据。输入数据可以是 Illumina、IonTorrent reads, 或 PacBio、Sanger reads,也可以把一些 contigs 序列作为 long reads 进行 输入。该软件可以同时接受多组 paired-end、mate-pairs 和 unpaired reads 数据的输入。同时该软件有一个独立的模块用于进行杂合基因组的组装。本研究 通过SPAdes 3.0.0 软件,利用SPAdes 算法,利用不同的K-mer 参数的分别对该 真菌测序数据进行多次基因组拼接和优化,最终基于基因组拼接结果的N50、最 长拼接序列长度、最小拼接序列长度和拼接出的 scaffold 个数等参数对各个拼 接结果进行筛选,选取最佳k-mer 参数和相应的最优拼接结果。 3. 基因预测 对于真菌基因组,为获得高置信度的预测基因集,我司会采用并整合基因预 测方法:基于基因组序列的从头预测方法(Ab initio methods)和基于证据支 持的基因预测(Evidence-based methods)。 (1)从头预测 根据基因组上的基因序列特征进行预测。从头预测基因软件需要根据测序基 因组选择最接近的物种基因模型,提高该基因组基因预测的准确性。为了确保基 因预测的准确性,除了选择最接近的物种基因模型参数,我司会选择至少两种从 头预测软件对测序基因组进行基因预测。 分析软件:AUGUSTUS、FGENESH、Geneid 和GENSCAN。 (2)基于证据支持的基因预测 在证据支持的基因预测时,基因预测证据包括蛋白序列,表达序列标签(EST) 序列和表达(RNA-seq)数据。利用该测序基因组先前已经鉴定的转录本或蛋白 序列,或者是所测的RNA-seq 数据,或相近物种的已鉴定的这类数据。 将 EST 和蛋白序列比对测序基因组上从而迅速鉴定出基因组上的近似同源 区域。然后根据比对区域的相似性,去除边缘的联配序列。再将过滤过的联配区 域进行聚类,鉴定出重叠的联配区域,鉴定出基因位置。 分析软件:genewise(Birney et al. 2004),PASA(Rhind, et al. 2011,Haas, et al. 2011)等。 基于转录组数据的基因预测 RNA-seq 数据鉴定基因主要通过两种方式: 一是利用拼接软件,例如ABySS (Simpson et al. 2009), SOAPdenovo(Xie et al. 2014)和 Trinity(Grabherr et al. 2011)等,对 RNA-seq 测序读序进行 无参照的从头拼接,然后将拼接出的转录本(transcripts)以与ESTs 同样的方 式与基因组联配进行基因预测。 二是利用TopHat(Trapnell et al.2009)和Scripture(Guttman et al. 2010) 等软件将RNA-seq 数据直接与基因组联配,然后利用Cufflinks (Robertson et al. 2010)再将联配结果组装成转录本,这种方法通常用TopHat 和 Cufflinks 软件组合才实现。然后以与ESTs 同样的方式与基因组联配进行基因预测 为了准确的预测出基因组上的基因,我司会将多种预测方法的结果进行优化 整合,去除假阳性和假阴性,最终确定出高可信度的基因集,用于后续的基因组 分析。 整合软件:PASA, EVM 4. 基因注释 基因功能注释 基因功能注释包括预测基因中的模序和结构域、蛋白质的功能和所在的生物 学通路等。 利用一些常用的数据库进行基因功能注释,使用的数据库有 Nr 蛋白库 (/blast/db/FASTA )、Uniprot 蛋白质序列数据库 (/ )、 Interpro 蛋 白 质 家

文档评论(0)

zhuwo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档