- 1、本文档共3页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
SAM格式-Bowtie2
1,简介:
文件后缀名:.sam
Bowtie2是现下最流行的短序列比对软件,SAM(Sequence Alignment/Map)格式是一种通用的比对格式,用来存储reads到参考序列的比对信息。
2,行、列、注释说明:
注释:以@开头的行
行:除注释外,每一行是一个read
列:
第一列:read name,read的名字通常包括测序平台等信息
eg.ILLUMINA-379DBF:1:1:3445:946#0/1
第二列:sum of flags,为flag的总和(整数),flag取值见备注(3)
eg.16
第三列:RNAM,reference sequence name,实际上就是比对到参考序列上的染色体号。若是无法比对,则是*
eg.chr1
第四列:position,read比对到参考序列上,第一个碱基所在的位置。若是无法比对,则是0
eg第五列:Mapping quality,比对的质量分数,越高说明该read比对到参考基因组上的位置越唯一。
eg.42
第六列:CIGAR值,碱基匹配上的碱基数。match/mismatch、insertion、deletion?对应字母 M、I、D
eg.36M 表示36个碱基在比对时完全匹配
注:第七列到第九列是mate(备注1)的信息,若是单末端测序这几列均无意义。
第七列:MRNM(chr),mate的reference sequence name,实际上就是mate比对到的染色体号,若是没有mate,则是*
eg.*
第八列:mate position,mate比对到参考序列上的第一个碱基位置,若无mate,则为0
eg.0
第九列:ISIZE,Inferred fragment size.详见Illumina中paired end sequencing 和 mate pair sequencing,是负数,推测应该是两条read之间的间隔(待查证),若无mate则为0
eg.0
第十列:Sequence,就是read的碱基序列,如果是比对到互补链上则是reverse completed
eg.CGTTTCTGTGGGTGATGGGCCTGAGGGGCGTTCTCN
第十一列:ASCII,read质量的ASCII编码。
eg.PY[[YY_______________QQQQbILKIGEFGKB
第十二列之后:Optional fields,以tab建分割。详见备注(2)
eg.AS:i:-1 XN:i:0 XM:i:1 XO:i:0 XG:i:0 NM:i:1 MD:Z:35T0 YT:Z:UU
扩展:
3,应用举例:
SAM文件可以作为很多后续分析的源文件,也可以从其中提取感兴趣的信息。
4,备注:
(1)mate,在Illuminated中有两种测序技术:paired end sequencing,mate pair sequencing。这两种测序都是测的一个片段的两端,这两端产生的reads被称为mate1,mate2,单末端测序则无mate。
(2)Optional fields:
AS:i:N
?? ? Alignment score.可以为负的,在local下可以为正的。 只有当Align≥1 time才出现
XS:i:N
?? ? Alignment score for second-best alignment. ?当Align1 time出现
YS:i:N
?? ? Alignment score for opposite mate in the paired-end alignment.?? 当该read是双末端测序中的一条时出现
XN:i:N
? ?? The number of ambiguous bases in the reference covering this alignment.(推测是指不知道错配发生在哪个位置,推测是针对于插入和缺失,待查证)
XM:i:N?
错配碱基的数目
XO:i:N
The number of gap opens(针对于比对中的插入和缺失)
XG:i:N
The number of gap extensions(针对于比对中的插入和缺失)
NM:i:N
The edit distance(read string转换成reference string需要的最少核苷酸的edits:插入/缺失/替换)
YF:Z:S
?该reads被过滤掉的原因。可能为LN(错配数太多,待查证)、NS(read中包含N或者.)、
? ? ??SC(match bonus低于设定的阈值)、QC(failing qua
您可能关注的文档
- 2013年注册建筑材料与构造考试要点.docx
- 2013年考试试题一.doc
- 2013精编教育理论多选题.docx
- 2013年大体积混凝土施工技术总结.docx
- 2013新人教版下册教案(精简).doc
- 2013造价员模拟试题《建筑工程实务》.doc
- 2014-2015-1建筑设备工程教案(初期).doc
- 2014《成才之路》高一生物必修二第三章综合检测题(Word有详解答).doc
- 2014仿用变换句式(教师版).doc
- 2014学生宿舍综合布线设计方案.doc
- Haier海尔413升风冷变频多门冰箱 BCD-413WGHFD1BSJU1(白)说明书用户手册.pdf
- Siemens西门子工业抽屉式断路器主回路后垂直连接 抽屉式断路器主回路后垂直连接使用手册.pdf
- Samsung三星智能佩戴设备 Galaxy Fit3安全手册.pdf
- Samsung三星滚筒洗衣机 AI神 黑钻热泵洗烘旗舰 WD18DB8995BZSC使用手册.pdf
- Sakura樱花消毒柜 保洁柜消毒柜 SCQ-130D6用户手册说明书.pdf
- Hifiman头领科技ARYA UNVEILED说明书用户手册.pdf
- Siemens西门子工业抽屉式主回路连接前置端子 支撑件 抽屉式主回路连接前置端子 支撑件使用手册.pdf
- Siemens西门子工业中性线的外部电流传感器 中性线的外部电流传感器使用手册.pdf
- Siemens西门子工业电子脱扣单元 电子脱扣单元使用手册.pdf
- Razer雷蛇Playstation 专用雷蛇战锤狂鲨极速版 RZ12-038203 用户指南 (简体中文)说明书用户手册.pdf
文档评论(0)