- 1、本文档共16页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
北京大學生科院/CLS生物信息平台
RNA-Seq测序数据分析服务流程
(试运行
.3
平台联络人:李程(
文档撰写:张超
TableofContents
1.测序质量评估(3
1.1测序数据過滤(3
1.2质量值分布(3
1.3GC含量分布(4
2.参照序列比對(4
3.基因体現水平(6
3.1基因体現水平定量(6
3.2基因体現水平分步(6
3.3生物學反复有关性分析(6
3.4样本间层次聚类及PCA分析(7
4.差异基因分析(7
4.1基因体現原则化(7
4.2差异基因列表(8
4.3差异基因可视化(8
4.4差异基因聚类(9
5.差异体現基因功能分析(10
5.1GO富集分析(10
5.2信号通路富集分析(10
5.3癌基因功能注释(11
6.基因构造差异分析(11
6.1可变剪切分析(11
7.SNP分析(12
7.1SNP检测(12
7.2SNP筛选(12
7.3GO/KEGG富集(12
1.测序质量评估
通過测序的数据進行進行质控,保证数据质量适合下游分析。這裏我們使用fastqc和RNA-SeQC来對数据進行质量评估。
1.1测序数据過滤
测序得到的原始下机数据往往有許多問題,不能直接使用,一般會通過如下過滤,尽量保证测序数据的质量。
a.清除带测序接頭的测序序列(reads;
b.清除低质量的reads
1.2质量值分布
按照既有的测序技术(illumina平台單碱基的錯误率应控制在1%如下,即质量值在20以上。
横坐標為reads的碱基位置,纵坐標為單碱基质量值
质量值与錯误率的关系:Q
=-10log10(e;其中Qphred為测序碱基质量值,e為测
phred
序錯误率。
1.3GC含量分布
對于RNA测序,鉴于序列通過超声随机打断,因此理论上每個测序循环上的C、G及A、T含量应分布相等,并且CG-content對于每個物种应大体相似。
横坐標為reads的碱基位置,纵坐標為多种碱基的不一样比例
2.参照序列比對
對于通過质量控制的数据,可以進行後续分析。首先需要将cleanreads比對到参照基因组上。由于测序時reads是随机的,只有這些reads的碱基信息和质量信息,没有其在基因组上的位置信息,比對這一步就是給所有reads一种在基因组上位置的信息。
在RNA测序中,其实测的是cDNA的序列,由于内含子的存在,因此會较常出現一条read跨内含子的状况,tophat2可以很好的处理這种状况,因此我們选用tophat2来做比對。
比對率间接反应了测序的质量和建库的质量,若比對率低,很也許建库時混入了其他物种的序列,导致無法比對到研究的物种参照基因组上。
reads比對到基因上的位置记录:
SampleIntragenic
Rate
Exonic
Rate
Intronic
Rate
Intergenic
Rate
Split
Reads
Expression
Profiling
Efficiency
Transcripts
Detected
Genes
Detected
1BJ0.8850.7380.1470.1149,910,0100.73832,79615,434
(1Sample:样本名
(2IntragenicRate:比對到基因内的reads比例
(3ExonicRate:比對到外显子的reads比例
(4IntronicRate:比對到内含子的reads比例
(5IntergenicRate:比對到基因间区的reads比例
(6SplitReads:比對到两外显子交接处的reads数
(7ExpressionProfilingEfficiency:比對到外显子上的reads占总体的比例
(8TranscriptsDetected:比對上reads数不小于5的转录本数
(9GenesDetected:比對上reads数不小于5的基因数
3.基因体現水平
3.1基因体現水平定量
在RNA-seq分析中,我們可以通過定位到基因组区域或基因外显子区的reads的计数来估计基因的体現水平。Reads计数除了与基因的真实体現水平成正比外,還与基因的長度和测序深度成正有关。為了使不一样基因、不一样试验间估计的基因体現水平具有可比性,人們引入了RPKM的概念,RPKM(ReadsPerKilobasesperMillionreads是每百萬reads中来自某一基因每仟碱基長度的reads数目。RPKM同步考虑了测序深度和基因長度對reads计数的影响,是目前最為常用的基因体現水平估算措施(Mortazavietal.,。
Gene_
您可能关注的文档
- 2025年房屋拆除施工组织方案.doc
- 2025年无人机数据传输系统手册.doc
- 2025年二手车电子商务平台商业计划书.doc
- 2025年药房上墙管理制度.doc
- 2025年施工现场防高空坠落应急演练活动方案.doc
- 2025年九年级物理欧姆定律教学设计.doc
- 2025年用水定额及实用标准.doc
- 2025年海绵城市监理细则.doc
- 2025届山东省青岛39中中考生物模拟试题含解析.doc
- 四川省成都市青羊区重点达标名校2025届中考五模生物试题含解析.doc
- 2025届湖北省武汉市新洲区中考历史最后一模试卷含解析.doc
- 辽宁省丹东市第十四中学2025届中考冲刺卷生物试题含解析.doc
- 方兴大道承台砼施工技术交底.docx
- 江苏省扬州市田家炳实验中学2025届中考历史全真模拟试卷含解析.doc
- 2025届黑龙江省杜尔伯特县中考二模化学试题含解析.doc
- 海南省海口九中学海甸分校2025届中考生物模拟试卷含解析.doc
- 江苏省春城中学2025届中考生物全真模拟试卷含解析.doc
- 广东省广州市番禺区广博校2025届中考猜题历史试卷含解析.doc
- 安徽省合肥市重点中学2025届中考四模历史试题含解析.doc
- 河北省衡水市故城县2025届中考生物押题试卷含解析.doc
文档评论(0)