SAM格式-Bowtie2.doc

下载文档

6
0
约2.64千字
约 3页
2017-03-28 发布于重庆
举报
版权申诉
保障服务

SAM格式-Bowtie2.doc

1、本文档共3页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

SAM格式-Bowtie2

1，简介：文件后缀名:.sam Bowtie2是现下最流行的短序列比对软件，SAM(Sequence Alignment/Map)格式是一种通用的比对格式，用来存储reads到参考序列的比对信息。 2，行、列、注释说明：注释：以@开头的行行：除注释外，每一行是一个read 列：第一列：read name，read的名字通常包括测序平台等信息 eg.ILLUMINA-379DBF:1:1:3445:946#0/1 第二列：sum of flags，为flag的总和（整数）,flag取值见备注(3) eg.16 第三列：RNAM，reference sequence name，实际上就是比对到参考序列上的染色体号。若是无法比对，则是* eg.chr1 第四列：position，read比对到参考序列上，第一个碱基所在的位置。若是无法比对，则是0 eg第五列：Mapping quality，比对的质量分数，越高说明该read比对到参考基因组上的位置越唯一。 eg.42 第六列：CIGAR值，碱基匹配上的碱基数。match/mismatch、insertion、deletion?对应字母 M、I、D eg.36M 表示36个碱基在比对时完全匹配注：第七列到第九列是mate(备注1)的信息，若是单末端测序这几列均无意义。第七列：MRNM(chr)，mate的reference sequence name，实际上就是mate比对到的染色体号，若是没有mate，则是* eg.* 第八列：mate position，mate比对到参考序列上的第一个碱基位置，若无mate,则为0 eg.0 第九列：ISIZE，Inferred fragment size.详见Illumina中paired end sequencing 和 mate pair sequencing，是负数，推测应该是两条read之间的间隔(待查证)，若无mate则为0 eg.0 第十列：Sequence，就是read的碱基序列，如果是比对到互补链上则是reverse completed eg.CGTTTCTGTGGGTGATGGGCCTGAGGGGCGTTCTCN 第十一列：ASCII，read质量的ASCII编码。 eg.PY[[YY_______________QQQQbILKIGEFGKB 第十二列之后：Optional fields，以tab建分割。详见备注(2) eg.AS:i:-1 XN:i:0 XM:i:1 XO:i:0 XG:i:0 NM:i:1 MD:Z:35T0 YT:Z:UU 扩展： 3，应用举例： SAM文件可以作为很多后续分析的源文件，也可以从其中提取感兴趣的信息。 4，备注： (1)mate，在Illuminated中有两种测序技术：paired end sequencing，mate pair sequencing。这两种测序都是测的一个片段的两端，这两端产生的reads被称为mate1，mate2，单末端测序则无mate。 (2)Optional fields： AS:i:N ?? ? Alignment score.可以为负的，在local下可以为正的。只有当Align≥1 time才出现 XS:i:N ?? ? Alignment score for second-best alignment. ?当Align1 time出现 YS:i:N ?? ? Alignment score for opposite mate in the paired-end alignment.?? 当该read是双末端测序中的一条时出现 XN:i:N ? ?? The number of ambiguous bases in the reference covering this alignment.（推测是指不知道错配发生在哪个位置，推测是针对于插入和缺失，待查证） XM:i:N? 错配碱基的数目 XO:i:N The number of gap opens(针对于比对中的插入和缺失) XG:i:N The number of gap extensions(针对于比对中的插入和缺失) NM:i:N The edit distance(read string转换成reference string需要的最少核苷酸的edits:插入/缺失/替换) YF:Z:S ?该reads被过滤掉的原因。可能为LN(错配数太多，待查证)、NS(read中包含N或者．)、 ? ? ??SC(match bonus低于设定的阈值)、QC(failing qua