- 1、本文档共8页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一个真菌基因组分析及表达谱分析项目方案
“一个真菌基因组分析及表达谱分析”项目方案
一,基因组组装及基因预测、注释
1.质控
利用NGStoolkit 质控软件,对原始数据的测序质量进行评估,去除低质量
数据和测序接头。得到clean data,并利用fastqc 对质控后的数据进行做数据
质量图形,评估数据质量和GC 含量等参数。对数据量和特性进行详细统计。
2. 基因组组装
本团队将利用SPAdes 3.0.0 (http://bioinf.spbau.ru/spades)软件对真
菌基因组进行组装。SPAdes 3.0.0 是一款快速、高效的基因组拼接软件,可适
用于单细胞或非单细胞测序数据。输入数据可以是 Illumina、IonTorrent reads,
或 PacBio、Sanger reads,也可以把一些 contigs 序列作为 long reads 进行
输入。该软件可以同时接受多组 paired-end、mate-pairs 和 unpaired reads
数据的输入。同时该软件有一个独立的模块用于进行杂合基因组的组装。本研究
通过SPAdes 3.0.0 软件,利用SPAdes 算法,利用不同的K-mer 参数的分别对该
真菌测序数据进行多次基因组拼接和优化,最终基于基因组拼接结果的N50、最
长拼接序列长度、最小拼接序列长度和拼接出的 scaffold 个数等参数对各个拼
接结果进行筛选,选取最佳k-mer 参数和相应的最优拼接结果。
3. 基因预测
对于真菌基因组,为获得高置信度的预测基因集,我司会采用并整合基因预
测方法:基于基因组序列的从头预测方法(Ab initio methods)和基于证据支
持的基因预测(Evidence-based methods)。
(1)从头预测
根据基因组上的基因序列特征进行预测。从头预测基因软件需要根据测序基
因组选择最接近的物种基因模型,提高该基因组基因预测的准确性。为了确保基
因预测的准确性,除了选择最接近的物种基因模型参数,我司会选择至少两种从
头预测软件对测序基因组进行基因预测。
分析软件:AUGUSTUS、FGENESH、Geneid 和GENSCAN。
(2)基于证据支持的基因预测
在证据支持的基因预测时,基因预测证据包括蛋白序列,表达序列标签(EST)
序列和表达(RNA-seq)数据。利用该测序基因组先前已经鉴定的转录本或蛋白
序列,或者是所测的RNA-seq 数据,或相近物种的已鉴定的这类数据。
将 EST 和蛋白序列比对测序基因组上从而迅速鉴定出基因组上的近似同源
区域。然后根据比对区域的相似性,去除边缘的联配序列。再将过滤过的联配区
域进行聚类,鉴定出重叠的联配区域,鉴定出基因位置。
分析软件:genewise(Birney et al. 2004),PASA(Rhind, et al. 2011,Haas,
et al. 2011)等。
基于转录组数据的基因预测
RNA-seq 数据鉴定基因主要通过两种方式:
一是利用拼接软件,例如ABySS (Simpson et al. 2009), SOAPdenovo(Xie
et al. 2014)和 Trinity(Grabherr et al. 2011)等,对 RNA-seq 测序读序进行
无参照的从头拼接,然后将拼接出的转录本(transcripts)以与ESTs 同样的方
式与基因组联配进行基因预测。
二是利用TopHat(Trapnell et al.2009)和Scripture(Guttman et al. 2010)
等软件将RNA-seq 数据直接与基因组联配,然后利用Cufflinks (Robertson et
al. 2010)再将联配结果组装成转录本,这种方法通常用TopHat 和 Cufflinks
软件组合才实现。然后以与ESTs 同样的方式与基因组联配进行基因预测
为了准确的预测出基因组上的基因,我司会将多种预测方法的结果进行优化
整合,去除假阳性和假阴性,最终确定出高可信度的基因集,用于后续的基因组
分析。
整合软件:PASA, EVM
4. 基因注释
基因功能注释
基因功能注释包括预测基因中的模序和结构域、蛋白质的功能和所在的生物
学通路等。
利用一些常用的数据库进行基因功能注释,使用的数据库有 Nr 蛋白库
(/blast/db/FASTA )、Uniprot 蛋白质序列数据库
(/ )、 Interpro 蛋 白 质 家
您可能关注的文档
- 髓系衍生的抑制性细胞与肿瘤免疫耐受关系的研究进展.pdf
- 高一化学必修1测试卷.doc
- 高一第二学期期末测试题-高考网.doc
- 高三学术学程.pdf
- 马来西亚国立大学华语教学及马来西亚国立大学华语教学及教师能力.pdf
- 高僧传六个词语的训释-武汉大学学报.pdf
- 高含硫天然气集输系统硫沉积研究进展-天然气与石油.pdf
- 高中数学课堂动态生成性教学的研究-nq70com.doc
- 高压直流供电系统在通信领域应用分析中国铁通集团有限公司-通标网.pdf
- 高含硫气田元素硫沉积及其腐蚀-天然气工业.pdf
- ‘跨界别艺术’研究报告-香港艺术发展局.pdf
- 一个关于砷化稼场效应晶体笃灞态-journalofsemiconductors.pdf
- 一个讨论全球卫星导航系统全球导航系统以造福全世界-unoosa.pdf
- ‘文人’汉代-东华大学.pdf
- 一种可变尺度的vanets无结构数据聚合算法-哈尔滨工业大学学报.pdf
- 一平台综述11平台的架构介绍-x431.pdf
- 一种基于h指数变体的软件网络节点重要性度量方法-四川大学学报.pdf
- 一种基于信息素和信息熵的蚁群聚类算法-电子设计工程.pdf
- 一种基于ieee80211p系统的联合粗细时间同步算法.pdf
- 一种内容中心网络中的热区控制及内容调度缓存算法.pdf
文档评论(0)