- 1、本文档共9页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
QTL-seq流程说明文档
版本号v1.0
撰写日期:2017.6.26
撰写者:柯文斯
1
目录
一、分析流程
二、调参示例
1
示例:
/lustre/Work/project/genomeOryza_sativa_BSA/01.QTL-seq/
一、工作原理
所需文件:1个亲本数据,2个混池数据
1.将亲本数据比对到参考基因组,进行snp检测;
2.将参考基因组的snp位点进行碱基替换,构建新的reference;
3.将亲本数据比对到新的参考基因组,进行snp检测,用于后续混池
的过滤;
4.将混池数据比对到新的参考基因组进行snp检测,筛选出相对亲本
特有的SNP位点;
5.对两个混池特有的snp计算出snp-index值,利用窗口滑动的方法结
合boost模拟曲线,定位性状关联区域。
二、分析流程
1.数据准备
对一个亲本、2个混池的fastq文件进行数据链接。
有多个lane数据的,先做数据合并,再链接合并的结果。合并的参考脚本:
zcatL7_1.clean.fq.gzL7_2.clean.fq.gz|gzipm1_1.clean.fq.gz
链接后的fastq文件命名方式:
BA_1_1_sequence.txt.gz、BA_1_2_sequence.txt.gz为混池BA的fq1、fq2文件,
其中BA_1的“1”是必须的,可以用其他数字代替。
2.设置参数
修改配置文件config.txt,根据需要设置相关的参数。
exportPATH=${PATH}:/lustre/Work/software/common/fastx_toolkit/bin
2
运行命令:
$./Bat_make_common.fnc.sh
该脚本运行时间很短,直接在本地命令行运行即可。创建流程所需的目录,
生成流程的参数配置文件0.common/common.fnc,用于后续调用参数。
3.数据过滤
$cd1.qualify_read/
分别对亲本和两个混池进行数据过滤。运行命令:
$./Run_all_Bats.sh0
$./Run_all_Bats.sh1
$./Run_all_Bats.sh9
这一步运行时间较长,所以需要用qsub投递任务。任务脚本:
run.0.pbs、run.1.pbs、run.9.pbs
具体过滤条件:
q30p90,即reads中不低于90%的碱基质量值大于30。
选取能配对的reads。
对于两个混池,选取同样大小的数据量,即从数据量较多的一个混池中随机
提取与另一个混池相同的数据量。
4.构建reference
$cd2.make_consensus/
运行命令:
$./Run_all_Bats.sh
这一步运行时间较长,所以需要用qsub投递任务。任务脚本:run.pbs。
具体运行的步骤:
利用bwaaln,将亲本过滤后的reads比对参考基因组。
利用covalrefine,
利用covalcall,检测亲本中的SNP、Indel。
3
对于亲本中检测到的SNP位点,替换参考基因组的碱基,从而得到一个新的
reference。
$cd90.align_to_this_f
文档评论(0)