DNA序列kmerindex问题基于Hash算法快速检索.docVIP

下载本文档

5
0
约5.63千字
约 13页
2019-03-05 发布于浙江
举报
版权申诉

DNA序列kmerindex问题基于Hash算法快速检索.doc

1、本文档共13页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

2015山东科技大学数学建模竞赛承诺书我们仔细阅读了山东科技大学数学建模竞赛的竞赛规则. 我们完全明白，在竞赛开始后参赛队员不能以任何方式（包括电话、电子邮件、网上咨询等）与队外的任何人研究、讨论与赛题有关的问题。我们知道，抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料（包括网上查到的资料），必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺，严格遵守竞赛规则，以保证竞赛的公正、公平性。如有违反竞赛规则的行为，我们将受到严肃处理。我们参赛选择的题号是（从A/B/C中选择一项填写）：我们的参赛序号为：所属学院（请填写完整的全名）：参赛队员 (打印并签名) ：1. 2. 3. 日期：年月日基于Hash表在大量DNA序列中快速索引查找k-mer 的算法摘要：为了解决在大量DNA数据中快速查找到k-mer所在位置，我们基于Hash算法思想建立适合此题的快速索引方法（桶式定址法），利用四进制转十进制的方式（）取得关键码值建立哈希表进行索引查询，8G内存限制下在codeblocks集成开发环境中，借助C语言进行编写使k支持1~14。针对问题将依次进行下列叙述：对建立索引的算法进行叙述和冲突分析；对建立索引算法的计算复杂度和空间复杂度进行分析；对索引查询进行叙述及性能分析；分析整套算法程序在不同k值下内存占用及极限分析。总结分析整套索引算法性能，对算法进行缺陷分析及改进方案。关键词：索引算法、Hash表、k-mer快速索引、数据结构一、问题重述 1.1背景给定一个DNA序列，这个系列只含有4个字母ATCG，如 S =“CTGTACTGTAT”。给定一个整数值k，从S的第一个位置开始，取一连续k个字母的短串，称之为k-mer（如k= 5，则此短串为CTGTA），然后从S的第二个位置，取另一k-mer（如k= 5，则此短串为TGTAC），这样直至S的末端，就得一个集合，包含全部k-mer 。如对序列S来说，所有5-mer为｛CTGTA，TGTAC，GTACT，TACTG，ACTGT，TGTAT｝通常这些k-mer需一种数据索引方法，可被后面的操作快速访问。例如，对5-mer来说，当查询CTGTA，通过这种数据索引方法，可返回其在DNA序列S中的位置为｛1，6｝。 1.2问题现在以文件形式给定 100万个 DNA序列，序列编号为1-1000000，每个基因序列长度为100 。（1）要求对给定k，给出并实现一种数据索引方法，可返回任意一个k-mer所在的DNA序列编号和相应序列中出现的位置。每次建立索引，只需支持一个k值即可，不需要支持全部k值。（2）要求索引一旦建立，查询速度尽量快，所用内存尽量小。（3）给出建立索引所用的计算复杂度，和空间复杂度分析。（4）给出使用索引查询的计算复杂度，和空间复杂度分析。（5）假设内存限制为8G，分析所设计索引方法所能支持的最大k值和相应数据查询效率。（6）按重要性由高到低排列，将依据以下几点，来评价索引方法性能索引查询速度索引内存使用 8G内存下，所能支持的k值范围建立索引时间二、问题分析在生物技术快速发展的今天，人类分析人类自身编码的需求也越来越高，人们利用计算机来处理分析大量DNA序列，k-mer快速查找也是处理大量数据的问题，所以必须依赖数据结构原理，建立模型构造算法，从而利用有限的资源解决复杂问题。针对问题一：按照给定k值，将所有数据按题目要求分组，求出每组数据的关键码值，并将关键码值与此组k-mer所在位置建立对应关系并存储到表中，从而建立哈希表。针对问题二：将要查找的k-mer序列求出其关键码值，直接输出其关键码值在表中对应位置信息，大大加快了索引查询速度。针对问题三：详见四-（二）-2，3。针对问题四：详见四-（三）