一种加权K―均值基因聚类算法.doc

下载文档 降价啦

10
0
约4.87千字
约 8页
2017-06-30 发布于福建
举报
版权申诉
保障服务

一种加权K―均值基因聚类算法.doc

1、本文档共8页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

一种加权K―均值基因聚类算法

一种加权K―均值基因聚类算法　　摘要：针对微阵列表达数据集中基因-基因之间存在复杂相关关系的问题，基于随机森林变量重要性分数，提出了一种新的加权K-均值基因聚类算法。首先，以微阵列表达数据中的样本为对象、基因为特征，训练随机森林分类器，计算每个基因的变量重要性分数；然后，以基因为对象、样本为特征、基因的变量重要性分数为权重进行K-均值聚类。在Leukemia、Breast、DLBCL等3个微阵列表数据集上进行了实验，结果表明：所提出的加权K-均值聚类算法与原始的K-均值聚类算法相比，类间距离与总距离的比值平均高出177个百分点，具有更好的同质性和差异性关键词：微阵列表达数据；聚类分析；随机森林；K-均值 DOI：1015938/jjhust201702021 中图分类号： TP391 文献标志码： A 文章编号： 1007-2683（2017）02-0112-05 Abstract：In view of the complex correlation between gene and gene in the microarray data set， a weighted K mean gene clustering algorithm based on random forest variable importance score was proposed First， the proposed algorithm begins with training random forest classifier on the microarray data， using the samples as objects and the genes as features， variable importance scores were calculated for each gene； then， a weighted Kmeans clustering were performed with genes as objects， samples as features， and variable importance score as weighted value Experiments were carried out on Leukemia， Breast and DLBCL three datasets The experimental results show that the proposed weighted K mean clustering algorithm has an average of 177 percentage points higher than the original K mean clustering algorithm with respective to the ratio of the distance between the class and the total distance and has better homogeneity and difference Keywords：microarray expression data； clustering analysis； random forest； Kmeans 0引言聚类是将物理或抽象对象的集合分组为由类似的对象组成的多个集合的过程，其中属于同一个集合的对象之间彼此相似，属于不同集合的对象之间彼此相异[1]。聚类是机器学习和数据挖据中的重要研究内容，被广泛应用于经济、管理、地质勘探、图像识别、生物医学、生物信息学等领域中[2-6]。随着高通量测序技术（Highthroughput Sequencing）的迅速发展，各物种的基因表达数据（Gene expression data）出现了爆炸式增长，同时大量的基因表达数据能够在公共数据库（如由美国NCBI管理和维护的GEO数据库、由美国斯坦福大学管理和维护的SMD数据库、由欧洲EBI管理和维护的ArraryExpress数据库和由日本多所大学合作提供的CGED数据库等）中得到[7-11]。在基因表达数据分析任务中，基因聚类分析有着非常广泛的应用。当前，基因聚类分析方法主要有三类：基于基因的聚类（Genebased clustering）、基于样本的聚类（Samplebased clustering）和两路聚类（Biclustering）[12，13]。基于基因的聚类将基因看成聚类的对象，将样本看成描述基因的特征，表达模式类似的基因（即共表达的基因，Coexpression gene）通常被划分为同一类，一般具有相同的功能，因此可