- 1、本文档共118页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
优秀毕业论文,完美PDF格式,可在线免费浏览全文和下载,支持复制编辑,可为大学生本专业本院系本科专科大专和研究生相关类学生提供毕业论文范文范例指导,也可为要代写发表职称论文提供参考!!!
摘要
摘要
模式识别,也被称为分类或者是统计分类,模式识别学科的研究目的就是为
了构建能够自动判别输入数据类别信息的分类系统。聚类分析是一种无监督的模
式识别方法,是模式识别研究中的一个重要领域。无监督的聚类分析算法能够探
索输入数据的内部群组结构,目前已经被广泛应用于各种数据分析场合,包括计
算机视觉分析,统计分析,图像处理,医疗信息处理,生物科学,社会科学和心
理科学等。聚类分析的基本原理就是将输入数据分成不同的群组,同一组中的成
员拥有相似的特性,相反不同组中的成员特性相异。
本文主要针对聚类分析算法及其应用进行研究,本文研究的聚类分析算法主
要应用于生物信息学数据分析,大规模选址问题,数据不规则形状分布聚类分析
问题。主要的工作和取得的成果概括如下:
of
(1)基因表达序列分析技术(Serial
Analysisgene
分析方法,被用于发现SAGE数据集中潜在的新的或隐含的转录或者是基因组,
因此已经被用于分析SAGE数据。尽管研究人员已经给出了多种用于SAGE数据
分析的聚类分析算法,但是这些算法通常都需要结合一些用户自己设定的参数,
并且聚类分析的结果对参数选择有很强的依赖性。本文基于SAGE数据的Poisson
统计特性和最近提出的仿射消息传播聚类分析算法提出一种自适应的聚类分析算
法,在该算法中引入了一个聚类结果校验测度,并以该测度为代价函数对聚类结
果进行优化调整以获得优化的聚类结果,该算法被命名为PoissonAPS。在多个实
际生命数据集上的对比实验结果表明本文给出的方法能够对SAGE数据进行很好
的聚类分析,并且产生有意义的可解释的分类结果。
(2)随着高通量测序技术的发展,目前在生物信息数据库中已经累积了大量
的蛋白质序列数据。但是由于实验确定蛋白质序列功能的速度无法赶上新序列测
序的速度,因此造成大量的新测序的蛋白质序列尚未通过实验的方式来确定它们
的生物功能和家族信息。由于实验验证过程非常耗时并且昂贵,因此理想情况下
希望仅仅依赖序列之间的相似性来探测未知功能序列和已知功能序列之间的同源
关系,进而确定未知功能序列的信息。聚类分析方法能够通过将蛋白质序列分类
摘要
到不同的蛋白质家族获得有意义的信息。最近几年研究人员已经提出了多种用于
蛋白质序列分析的聚类算法。面对众多的蛋白质序列聚类分析算法,有必要进行
一个对比研究分析,分析的结果将有利于生命科学研究人员考察不同的算法并且
选择合适的用于特定实验分析场合的算法。本文比较了四种典型的蛋白质序列分
析算法,在多个数据集上考察算法的以下几方面的性能:缺省参数条件下的聚类
算法性能分析;算法对蛋白质序列在数据集中所处位置是否敏感;数据集自身的
真实类分布对聚类算法结果的影响;调节算法的参数,观察参数对聚类结果的影
响。本文给出的实验结果能够帮助研究人员选择合适的分析算法。并且实验结果
还表明蛋白质序列聚类分析算法还有很大的改进空间。
(3)随着大量的未知功能的蛋白质序列数据的累积,目前已经无法通过实验
的手段来标注未知功能的蛋白质序列。聚类分析方法通过将蛋白质序列分类到不
同的同源组来确定未知功能的蛋白质序列的信息。本文引入了一种用于大数据量
蛋白质序列分析的无比对的在线聚类分析方法,命名为OnlineCAPS。该方法具有
速度快,可在有限内存环境下运行等优点,此外该方法还可以被部署在WEB服务
器上。实验结果表明该方法能够快速的分析大数据量的蛋白质序列,并且获得的
聚类结果的质量接近于其它算法。
(4)选址布局问题是一个广泛研究的运筹学问题。通过将选址布局问题看作
聚类问题,结合聚类分析算法并且将候选地址的信息映射为特征向量,本文提出
了两种求解选址布局问题的方法:基于块划分的选址布局方法;基于道路网络的
选址布局方法。文中使用模拟数据集和真实数据集来评估这两种方法,实验结果
表明两种方法都能够求解设施资源受限和不受限情况下的选址布局问题,而且可
以很好的解决大规模的选址布局问题。
(5)探测数据不规则形状分布的自然类簇分布是模式识别研究领域的一个困
难的任务。本文给出了一种有效的数据不规则形状分布聚类分析算法,该算法结
合了谱聚类和仿射消息传播聚类算法的优点,能够很好的分
您可能关注的文档
- 猪Hsp70原核表达、多克隆抗体制备猪温病毒感染对Hsp70蛋白影响.pdf
- 三维动画运动节奏调节设计.pdf
- 《贞松堂集古遗文》.pdf
- 魏晋南北朝时期书法理论的分析.pdf
- 重庆城乡文化产业统筹发展模式分区策略.pdf
- 水稻PR基因启动子的分析在抗白叶枯病中作用.pdf
- 真空中激光传输加速电子.pdf
- 初级感觉神经元A型电压门控钾离子通道参大鼠骨癌痛和双氯芬酸镇痛机制.pdf
- 儿童图画故事书形态设计——以编辑出版学为视角.pdf
- 时分交换新型FPGA互连结构.pdf
- 北师大版小学数学三年级上册《寄书》教学设计.docx
- 统编版(部编版)语文二年级上册《雪孩子》教学设计.docx
- 统编版(部编版)语文二年级上册《八角楼上》教学设计.docx
- 北师大版小学数学三年级上册《长方形周长》教学设计.docx
- 北师大版小学数学三年级上册《丰收了》教学设计.docx
- 统编版(部编版)语文二年级上册《夜宿山寺》教学设计.docx
- 统编版(部编版)语文二年级上册《风娃娃》教学设计.docx
- 统编版(部编版)语文二年级上册《朱德的扁担》教学设计.docx
- 统编版(部编版)语文二年级上册《难忘的泼水节》教学设计.docx
- 统编版(部编版)语文二年级上册《纸船和风筝》教学设计.docx
文档评论(0)