- 1、本文档共10页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于位置关联权重矩阵跟序列组分的多样性增量识别剪接位点
生物物理学报 2014年8月 第3O卷 第 5期:391.400
ACTABIOPHYSICASINICAVo1.30No.5Aug.2014:391-400 www.cjb.org.cn
基于位置关联权重矩阵及序列组分的多样
性增量识别剪接位点
李 琴 , 张 瑾 , 骈 聪, 陈园园, 李 强, 张 良云
南京农业大学理学院,南京 210095
共 同第一作者
收稿 日期:2014—06—08;接受 日期:2014—07—23
基金项 目:江苏省 自然科学基金项 目(BB,高等学校博士学科点专项科研基金项 目
(20100097110040)和中央高校基本科研业务费专项资金项 目(KYZ201125)
通讯作者:张 良云,电话:f025E—mail:zlyun@njau.edu.cn
摘要:前体 mRNA 的剪接是真核基 因表达的关键阶段 ,识别剪接位点对基 因表达也起着至关重
要的作用。作者用紧邻与非紧邻的位置关联权重矩阵及组成分的多样性增量得到的五维特征 向
量来表示序列,应用支持 向量机对供体位点和受体位点进行识别。采用 5-fold交叉检验,得到
供 体和受体位 点的马修斯相关 系数分别为 0.924和 0.947,ROC 曲线下面积分别 为 99.08%和
99.54%。与一些传统方法相 比,这一方法考虑 了位 点之间的相关性和序列的生物信息,表现出
特征少、精度高等优点。
关键词:位置关联权重矩阵;多样性增量;支持向量机 ;剪接位点
中图分类号:029
DoI: 】0.3724/SP.J.】260.20】440070
引 言
基因是基因组中包含了特定生物遗传信息的DNAf有些病毒为RNA1序列片段,是控
制生物体性状的基本遗传单元。基因 RNA 剪接是真核细胞基因表达的关键阶段。外显子
和内含子之间的边界称为剪接位点,内含子 5’端接头序列称为供体位点,3’端接头序列称
为受体位点。剪接位点处的序列碱基组成具有高度的趋向一致的保守性 ”【,对大量真核生物
的前体信使 RNA内含子进行比较发现,在它们的5’端均为GU,3’端均为AG,即GU.AG
规则 (在 DNA序列 中是 GT.AG原则)。研究发现[2】,不符合该规则的真核生物前体信使
RNA剪接,如 GC.AG、AU.AC等,所 占比例不足 1%。然而,GT.AG的出现并不意味着
它们就是剪接位点。正确的剪接依赖于正确的剪接位点,而剪接发生错误与疾病关系重大,
约 1/4的遗传病是由于基因突变改变了正常剪接位点而导致的。
在剪接位点识别研究的早期,许多统计概率方法及机器学习方法被用于剪接位点的识
别,如位置权重矩阵模型 (weightmatrixmodel,wMM)嘲、权重阵列模型 (weightarray
model,WAM)[4,5]、最大相关分解 (maximaldependencedecomposition,MDD 、基于多样
生物物理学报 2014年 第 3O卷 第 5期
性增量的二次判别分析 (incrementofdiversitywithquadraticdiscriminant,IDQD)E、隐马
尔可夫模型 (hiddenma~ovmodel,HMM)、最大熵模 型 (maximum entropymodel,
MEM)tⅫ、贝叶斯 网络 fbayesiannetwork,BN)t“l2]和支持 向量机 (supportvectormachine,
SVM)[nl14J等。以上的识别算法用于基因剪接位点识别时都有很好的性能,一般在核苷水平
上的敏感度和特异度都达到了90%左右 。但总体而言,目前的剪接位点识别算法还存在着
一 定的缺 陷,如算法复杂、特征过多、没有充分考虑剪接位点之间的相关性和序列的生物
信息等。Li等[15】利用序列的组分特征及位点关联特征,并结合支持向量机对剪接位点进行
识别,虽然识别供体 (受体)位点的敏感度和特异度分别达到 97.21% (95.17%)和 94.99%
(93.23%),马修斯相关系数 (Matthewscorrelation coefficients,MCC)也高达 0.922和
0.887,但特征向量维数较大,分别为719维和 796维,使得算法费时较长。
为了充分考虑位点之间的相关性及序列的生物信息,本文对剪接位点附近的保守片段
进行位置关联性分析,并对保守区域附近的上、下游片段进行组成
文档评论(0)