- 1、本文档共12页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于类均值肿瘤基因芯片数据标准化方法
一种基于类均值肿瘤基因芯片数据标准化方法
摘 要:分析了当前常用的标准化方法在肿瘤基因芯片中引起错误分类的原因,提出了一种基于类均值的标准化方法,该方法对基因表达谱进行双向标准化,并将标准化过程与聚类过程相互缠绕,利用聚类结果来修正参照表达水平,选取了5组肿瘤基因芯片数据,用层次聚类和K-均值聚类算法在不同的方差水平上分别对常用的标准化和基于类均值的标准化处理后的基因表达数据进行聚类分析比较,实验结果表明,基于类均值的标准化方法能有效提高肿瘤基因表达谱聚类结果的质量。
关键词:肿瘤基因芯片;聚类分析;标准化;中心化;相关系数
中图分类号:Q332 文献标识码:A 文章编号:1007-7847(2007)03-0206-06
肿瘤基因芯片分析是当前研究的一个热点,主要研究技术之一就是聚类分析,其目标是用某种相似性度量准则(如Pearson相关系数等)将样本或基因组织成有意义的组,对基因聚类,有助于对基因功能、基因调控及细胞过程等进行综合研究:对样本聚类,可以确定和发现新的肿瘤类型,从而对相应的诊断、治疗和预防有很大帮助,有多种聚类算法已被成功地用于基因表达谱的聚类分析,如层次聚类(hierarchical clustering),K-均值聚类(K-means clustering)等。
然而,基因芯片实验中的误差来源很多,如荧光标记效率、扫描参数的设置以及空间位置的差异等,这些都可能对基因表达水平的测量产生影响,从而导致较差的聚类效果,因此,为了消除这些外界因素引起的误差,使基因表达数据能够真实地反映测量样本的生物学差异,需要对基因表达数据进行标准化处理,虽然,已有许多文献介绍了当前常用的标准化方法。但还没有文献在理论上对其作用机理进行深入地阐述,概括起来,常用的标准化方法包括零均值单位方差方法和数据中心化方法,它们都是用均值或中值对样本或基因进行标准化处理,但是,这些方法处理后的数据不能正确反映出类别差异,在以相关系数为相似性度量准则的聚类算法中,尤其在基因表达谱中存在极端值,或者各类包含的样本或基因数量相差较大的情况下,会引起类型偏倚,从而导致样本或基因的错误???类。
针对上述问题,本文在研究聚类分析和标准化基本原理的基础上,分析了上述标准化方法引起错误分类的原因,提出了一种基于类均值的标准化方法,该方法对基因表达谱进行双向标准化,并将标准化过程与聚类过程相互缠绕,利用聚类结果来修正基因(或样本)的参照表达水平,不但消除了芯片间差异,还突出了每个基因(或样本)在各样本(或基因)中的变异,本文通过对5组寡核苷酸芯片的基因表达数据的聚类分析,验证了该方法能有效地提高聚类结果的质量。
1 聚类分析
聚类分析的基本思想是在样本或基因间定义相似性度量准则,将相似度高的样本或基因划分为一类从而确定各个样本或基因间的关系,最常用的聚类分析方法有层次聚类(hierarchical clus-tering,HC),K-均值聚类(K-means clustering,KM)等,这些方法都是基于个体间的相似度来进行聚类的,因此,相似度是聚类分析的首要环节,对聚类结果有着非常重要和直接的影响,
Pearson相关系数是最常用的相似性度量准则之一,它从方向上判断两个表达水平X=(x1,x2…,xn)和y=(y1,y2,…,yn)的相似程度,即
Θ田为向量X和Y间的夹角,P为1时,X和Y的相似度最高,Θ为0°;P为-1时,相反程度最高,Θ为180°:P为0时,相关程度最低,Θ为90°,可见,影响Pearson相关系数的是X和Y间的夹。
2 标准化及其对聚类结果的影响
2.1 常用的标准化方法及其对聚类结果的影响
最常用的一种标准化方法是零均值单位方差,即,使每个样本或基因向量的平均值为0,标准差为1,其目的是放大弱信号抑制强信号,将所有数据转换到同一个范围内,另一种常用的标准化方法是数据的中心化,即把每个基因在各样本中的表达值减去该基因在所有样本中表达值的均值或中值来去除参照表达水平的影响,或者将各个基因在每一样本中的表达值减去该样本中所有基因表达值的均值或中值来消除芯片间的差异,使基因表达水平具有可比性,该方法一般用于肿瘤样本的聚类或分类研究中。
实际上,上述两种标准化方法都有一个中心化的过程,均值和中值都是观察值“中间”位置的一种测度,可以看作是对参照水平的估计,在向量空间中,减去均值或中值就是将坐标原点平移到均值或中值所对应的点上,零均值单位方差的标准化方法只是比数据中心化方法多了一个单位化的过程,此过程方便比较和计算相关系数,但是,会把噪声纳入真实信号,尤其在标准差很小时会产生很大的噪声。
对样本的标准化,虽然
文档评论(0)