- 1、本文档共41页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
多元统计分析 孔宏伟 2012-12-26 组学技术---丰富的数据信息 变量样本量 多变量之间可能存在相关性 数据结构复杂:噪声、背景、差异巨大的信号 数据处理 单因素分析 多元统计分析处理的是多变量(多指标)问题。由于变量较多,增加了分析问题的复杂性。但在实际问题中,变量之间可能存在一定的相关性,因此,多变量中可能存在信息的重叠。人们自然希望通过克服相关性、重叠性,用较少的变量来代替原来较多的变量,而这种代替可以反映原来多个变量的大部分信息,这实际上是一种“降维”的思想。 多元统计分析的数据对象 多元数据统计分析的研究内容 1. 简化数据结构(降维问题) 2.聚类与判别(归类问题) 3.变量间的相互联系(回归问题) 降维-主成分分析 主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。从数学角度来看,这是一种降维处理技术。 较少的几个综合指标—主成分(原变量的线性组合)尽量多地反映原来较多变量指标所反映的信息,同时它们之间又是彼此独立的 主成分的确定 主成分投影 得分(score) 载荷(loading) 特征值(Eigenvalue)-主成分方差的平方 R2X DModX 主成分个数的确定方法: 特征值1(2) 累加特征85% 特征值拐点 Cross-validation 子集模型 Scaling 我们感兴趣的不是变量的绝对值,而是样本间的差异 变量的单位、来源等不同 Mean-centering (Ctr) AutoScaling (UV) Parto(Par) 聚类分析 聚类分析根据事物本身的特性研究个体分类的方法,原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。 无监督的模式识别 聚类分析的相似性指标 距离 明可夫斯基距离(Minkowski Distance) 曼哈顿距离(Manhattan Distance)p=1 欧几里得距离(Euclidean Distance)p=2 切比雪夫距离(Chebyshev Distance)p→∞ 马哈拉诺比斯距离(Mahalanobis Distance) 相似性 向量空间余弦相似度(Cosine Similarity) 皮尔森相关系数(Pearson Correlation Coefficient) Jaccard相似系数(Jaccard Coefficient) 相似度和距离的差异 相对含量vs绝对含量 根据数据合理选择 k-均值聚类 k-均值聚类(k-means cluster,也叫快速聚类,quick cluster)首先要确定你要区分的总类别数。 假定你说分3类,这个方法还进一步要求你事先确定3个点为“聚类种子”(也可自动选取);也就是说,把这3个点作为三类中每一类的基石。 然后,根据和这三个点的距离远近,把所有点分成三类。再把这三类的中心(均值)作为新的基石或种子(原来的“种子”就没用了),重新按照距离分类。 如此叠代下去,直到达到停止叠代的要求(比如,各类最后变化不大了,或者叠代次数太多了)。显然,前面的聚类种子的选择并不必太认真,它们很可能最后还会分到同一类中呢。 分层聚类分析Hierarchieal Cluster Analysis.HCA 主成分投影 主成分分析的主成分的确定并未考虑样本的分类信息,但若选用的变量与分类关系密切相关,在主成分的某些投影图上可以使两类(或多类)样本分布于不同区域,从而用于分类判断。但最大的两个主成分的投影不一定是分类最佳的投影,需要人为确认,应选择合适的主成分空间以获得理想的几何分类结果。由于主成分是原始变量的线性组合,根据数据的负载矩阵,可以用于判断原始变量对类型判断的贡献,简化指纹谱图。 得分图 载荷图(或biplot) 聚类要注意的问题 聚类结果主要受所选择的变量影响。如果去掉一些变量,或者增加一些变量,结果会很不同。 相比之下,聚类方法的选择则不那么重要了。因此,聚类之前一定要目标明确。? 另外就分成多少类来说,也要有道理。只要你高兴,从分层聚类的计算机结果可以得到任何可能数量的类。但是,聚类的目的是要使各类距离尽可能的远,而类中点的距离尽可能的近,而且分类结果还要有令人信服的解释。这一点就不是数学可以解决的了。 变量筛选 去除溶剂、杂质等与样本信息无关的变量 去除误差过大的变量 单因素显著性检验 t-test, f-test, ANOVE Fisher权重 判别分析 判别分析判别分析是利用已知类别的样本建立判别模型,为未知类别的样本判别的一种统计方法 有监督的模式识别 K-最近相邻法(K-NN) 简单的中心距离判别 K-NN 线性判别分析(Linear Discriminant
文档评论(0)