- 1、本文档共7页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
关于针对面报告解释
HR Planning System Integration and Upgrading Research of
A Suzhou Institution
Graph Theory
書面報告 3
學號:946349
姓名:蘇育仁
Paper
Title: A Greedier Approach for Finding Tag SNPs
Authors: Chia-Jung Changa, Yao-Ting Huanga, and Kun-Mao Chao
Publication: Bioinformatics Advance Access published January 10, 2006
1、Problem
Single Nucleotide Polymorphism (SNP)
A genetic variation when a single nucleotide (i.e., A, C, G, or T) in the DNA sequence is altered and kept through heredity thereafter.
上述是作者在paper中對於SNP的描述,SNP是同物種中,不同個體在DNA sequence間發生差異的最主要位置,而且通常只有一個鹼基會發生,如下圖:
上圖兩個個體之間,只有一個鹼基有差異,其他的序列都是一樣的,而且在那個SNP的地方,該物種的所有個體不是AT就是CG,不會是其他的,正如paper中那段話提到的,SNP的值是altered。
將一個個體的DNA序列中,只取其SNP的值出來,並以顯隱性表示之,稱為一個haplotype pattern。
正因為SNP的值有顯隱性之分,所以若有兩haplotype patterns A和B,在某一個SNP的值不同,則只要看該SNP的值,就可以區分這兩個haplotype patterns,進而區別出兩個不同個體,如下圖:
上圖中(a)表示在四個haplotype patterns中,四個SNP的值。圖(b)中以S1為例,有弧線相連的兩個patterns表示S1可以分辨的有P1和P2、P1和P3、P2和P4、P3和P4。
Finding tag SNPs
在一群haplotype patterns中,如果有一組SNPs足以分辨所有patterns的話,則稱之為tag SNPs。
以上圖(a)為例,選擇S1為一個tag SNP的話,根據圖(b)所示S1所能分辨的patterns,則必須另外選擇S2或S3以分辨P2和P3,以及選擇S4來分辨P1和P4,所以S1、S2、S4和S1、S3、S4是這些haplotype patterns的兩組tag SNPs。
由tag SNPs的定義,可以知道最差的情況就是把所有SNP都選為tag SNP,一定可以分辨所有patterns,因此找尋tag SNPs的問題,其目的在於找出tag SNP數量的最小值,最佳的tag SNPs可能不是唯一,但是最小值會只有一個解。
尋找tag SNPs的問題,可以如下圖表示為尋找cover的問題:
E1到E6是所有patterns取兩個的所有狀況,而S1到S4為所有SNPs,若Si和Ej間有線相連,表示第i個SNP可以分辨Ej中的兩個patterns。
如此一來,找tag SNPs數量最小值的問題,也就變成尋找最少的D所成的集合,其中包含所有的E,可以視為一個尋找cover的問題,而這類的問題已經被證明是屬於NP-hard。
2、Method
正如前面所提到的,由於這個問題屬於NP-hard的問題,所以有兩類的方式來解決它:
一種是使用比較有效率的approximation algorithm,在paper中有提到,可以用greedy algorithm來處理,也就是maintain一個Dfinal為某些Di所成的集合,每次加一個新的SNP,使得Dfinal中所能分辨的E增加最多,直到D能夠分辨所有E為止。這個方法雖然能把時間複雜度減少為O(|E|nlogn),但是所計算出的tag SNPs數量最小值和最佳解有一段差距,大約是0.5%左右,每個case有不同的差距。
另外一個方法則是使用branch-and-bound algorithm,雖然這樣可以保證找出最佳解,但是這種做法的時間複雜度是指數成長的,因為這個問題是NP-hard。
本篇paper的作者,則是提出了綜合greedy和branch-and-bound的演算法,稱之為Greedy-Partition-Tree (GPT)。
示意如下圖:
上圖中的root表示原來的problem,L的層數可以由使用者決定,而灰色的internal node表示選擇該SNP為tag SNP,而白色的則是不選擇該SN
文档评论(0)