- 1、本文档共8页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
DNA序列特征提取与功能预测技术的探讨.doc
DNA序列特征提取与功能预测技术的探讨
摘要:测序技术的快速进步产出了大量生物序列,DNA序列是生物大数据的重要组成部分,仅有极少部分DNA序列已通过实验验证了功能;通过机器学习方法快速预测DNA序列的功能是确实可行的途径。本文探讨了将DNA序列转化为特征向量的方法,并使用机器学习方法对未知功能序列进行功能标注一般步骤。
关键词:DNA序列;特征提取;功能预测;序列数据库
中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2016)25-0151-02
1 引言
随着测序技术的迅速进步,各类生物数据库中的序列数据正在快速增长,生物大数据正在高速填充世界各生物公共平台的后台数据库;仅以美国国家生物技术信息中心(National Center for Biotechnology Information)的DNA序列数据库GenBank为例,截止2014年8月,GenBank数据库中的碱基对数量已超过13630亿对(Base Pair),较上一年增长了45%[1],该数据库的碱基对数量在2013年、2012年和2011年的年增长率分别是43%[2]、45.1%[3]和33.1%[4]。如此快速增长的序列数据,仅通过实验手段对这些序列数据进行功能注释显然已不现实,基于计算技术的快速功能注释已经变得势在必行。
DNA序列是由A,T,C和G四个字母组成的字符串,而目前的机器学习方法仅以特征向量作为输入;因此,将DNA序列转化为特征向量并尽可能保留序列内部的信息是特征提取技术的关键。
对新测序或者未知功能的DNA序列,对其功能进行验证的可靠方法是人工实验,但在数量庞大的DNA序列面前,全部由实验方法验证其功能显然已不可行,借助计算机领域的机器学习方法快速注释新序列的潜在功能便是一种可行的途径。这种功能注释方法的理论基础是序列的相似性意味着功能上的相似性。机器学习方法首先要获得一组DNA序列的训练集,该集合中的序列是已确定其功能的序列,由该训练集构建学习模型,并在训练集上进行交叉检验来验证该学习模型的预测性能,然后应用该模型对未知功能DNA序列进行功能预测。当然,并不是所有机器学习方法都适合对DNA序列的功能进行预测,因此,本文对DNA序列的特征向量提取方法及构建机器学习模型等问题进行了探讨。
2 DNA序列的特征提取策略
DNA序列由4种核苷酸碱基组成,分别是腺嘌呤(Adenine, A)、鸟嘌呤(Guanine,G)、胞嘧啶(Cytosine,C)和胸腺嘧啶(Thymine, T)。DNA序列的特征提取就是将由A、G、C和T四个字母组成的长串序列(字符串)转化成用数值表示的特征向量的过程。
基于k-mer的特征提取方法是一种常用方法。考虑由字母表∑={A,G,C,T}生成长度为k的序列片段(即k-mer),并统计这些片段在DNA序列中的出现频率,由这些频率值构造特征向量。当k=1时,即统计字母表∑中4个字母在序列中的出现频率,生成一个有4个分量的特征向量。当k=1时,一个特征向量仅有4个分量,一般没有意义。当k=2时,即计算集合∑2={AA, AG, AC, ..., TC, TT}中的16个双核苷酸碱基在DNA序列中的出现频率,由此构成一个有16个分量的特征向量。例如,一条DNA序列为“ACGT”,则该序列包含三个2-mer分别为AC、CG和GT,这三个2-mer的出现频率均为1/3=0.33;该序列生成一个有16个分量的向量,其中有三个分量为0.33,即为前面所提到的3个2-mer的出现频率。当k=3时,特征向量的长度为43,即64维。随着k的增大,特征向量的维度迅速升高,例如,当k=8时,表示这条DNA序列的特征向量长度为65536维(48=65536),如此高维的特征向量已引起维度灾难,机器学习算法在处理高维向量时,其性能会显著下降,k值并不是越高越好。
基于k-mer的特征提取方案,衍生出一系列的特征提取方法。比如,将不同k值的k-mer组合,生成混合特征向量。例如将k=1、k=2和k=3三类特征向量进行组合,生成具有84个分量(41+42+43=84)的特征向量。基于k-mer的编码思想,王树林[5]等人提出了基于k-mer的哈希编码方案。在他们的论文[5]中,将字母表∑中4个字母进行二进制编码:Code(A)=(00)2,Code(G)=(01)2,Code(C)=(10)2和Code(T)=(11)2,括号外的下标2表示二进制,编码函数Code(si)表示对字母表∑中的单字符si进行二进制编码,并将k-mer短序列通过哈希函数映射为离散的数值向量,其哈希函数f:∑k→N定义为:
s[1..k]表示长度为k的DNA短序列片段,即
文档评论(0)