- 1、本文档共8页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一种加权K―均值基因聚类算法
一种加权K―均值基因聚类算法 摘要:针对微阵列表达数据集中基因-基因之间存在复杂相关关系的问题,基于随机森林变量重要性分数,提出了一种新的加权K-均值基因聚类算法。首先,以微阵列表达数据中的样本为对象、基因为特征,训练随机森林分类器,计算每个基因的变量重要性分数;然后,以基因为对象、样本为特征、基因的变量重要性分数为权重进行K-均值聚类。在Leukemia、Breast、DLBCL等3个微阵列表数据集上进行了实验,结果表明:所提出的加权K-均值聚类算法与原始的K-均值聚类算法相比,类间距离与总距离的比值平均高出177个百分点,具有更好的同质性和差异性
关键词:微阵列表达数据;聚类分析;随机森林;K-均值
DOI:1015938/jjhust201702021
中图分类号: TP391
文献标志码: A
文章编号: 1007-2683(2017)02-0112-05
Abstract:In view of the complex correlation between gene and gene in the microarray data set, a weighted K mean gene clustering algorithm based on random forest variable importance score was proposed First, the proposed algorithm begins with training random forest classifier on the microarray data, using the samples as objects and the genes as features, variable importance scores were calculated for each gene; then, a weighted Kmeans clustering were performed with genes as objects, samples as features, and variable importance score as weighted value Experiments were carried out on Leukemia, Breast and DLBCL three datasets The experimental results show that the proposed weighted K mean clustering algorithm has an average of 177 percentage points higher than the original K mean clustering algorithm with respective to the ratio of the distance between the class and the total distance and has better homogeneity and difference
Keywords:microarray expression data; clustering analysis; random forest; Kmeans
0引言
聚类是将物理或抽象对象的集合分组为由类似的对象组成的多个集合的过程,其中属于同一个集合的对象之间彼此相似,属于不同集合的对象之间彼此相异[1]。聚类是机器学习和数据挖据中的重要研究内容,被广泛应用于经济、管理、地质勘探、图像识别、生物医学、生物信息学等领域中[2-6]。随着高通量测序技术(Highthroughput Sequencing)的迅速发展,各物种的基因表达数据(Gene expression data)出现了爆炸式增长,同时大量的基因表达数据能够在公共数据库(如由美国NCBI管理和维护的GEO数据库、由美国斯坦福大学管理和维护的SMD数据库、由欧洲EBI管理和维护的ArraryExpress数据库和由日本多所大学合作提供的CGED数据库等)中得到[7-11]。在基因表达数据分析任务中,基因聚类分析有着非常广泛的应用。当前,基因聚类分析方法主要有三类:基于基因的聚类(Genebased clustering)、基于样本的聚类(Samplebased clustering)和两路聚类(Biclustering)[12,13]。基于基因的聚类将基因看成聚类的对象,将样本看成描述基因的特征,表达模式类似的基因(即共表达的基因,Coexpression gene)通常被划分为同一类,一般具有相同的功能,因此可
您可能关注的文档
- SLA理论对中学英语四个教学技能启示.doc
- SMART原则在教学目标设计中对人才培养应用.doc
- SJ集团建筑工程项目造价管理中问题及解决措施.doc
- SPECT―CT及MRI在鼻咽癌早期颅底侵犯方面比较探究.doc
- SPOC及任务型语言教学融合探究.doc
- SPOC混合教学模式在C语言程序设计课程应用.doc
- SPOC网络教学平台在《财务会计》课程教学中应用.doc
- Study on the Micro―class Types Used in College English Audio―visual Course.doc
- SQL数据库背景下企业信息管理系统设计.doc
- SWOT分析在门诊前臂骨折手法复位术后健康教育中应用及效果.doc
- 四川省德阳市罗江中学2025届高三考前热身化学试卷含解析.doc
- 山东省枣庄现代实验学校2025届高三下学期第五次调研考试化学试题含解析.doc
- 吉林省长春市十一高中等九校教育联盟2025届高三一诊考试生物试卷含解析.doc
- 2025届江苏省盐城市伍佑中学高考仿真模拟化学试卷含解析.doc
- 2025届广西贺州中学高考冲刺押题(最后一卷)生物试卷含解析.doc
- 安徽省池州市贵池区2025届高三第一次模拟考试生物试卷含解析.doc
- 宁夏银川一中2025届高三(最后冲刺)化学试卷含解析.doc
- 广东省广州市增城区四校联考2025届高考压轴卷化学试卷含解析.doc
- 2025届邯郸市第一中学高考生物必刷试卷含解析.doc
- 2025届安徽省安庆市石化第一中学高考仿真卷化学试卷含解析.doc
文档评论(0)