- 1、本文档共64页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
主成分分析是很常用的一种方法通过对一组变量的几种线性组合来
计算步骤 设有n个样品,每个样品观测p个指标,将原始数据写成矩阵 1)将原始数据标准化(标准化就是已知随机变量X的期望Q,方差为S的平方的话,令新变量为(X-Q)/S,新变量就是一个标准的方差) 2)建立变量的相关系数阵R=X’X 3)R的特征根λ1≥λ2≥…≥λp0及相应的单位特征向量:ai=[a1i ,a2i,…,api]’。 4)写出主成分Fi=a1iX1 + a2iX2 + … + apiXp Data Preprocessing: Summary Problems during data integration: Different attribute names Different units Different scales Derived attributes Redundant data Missing values Imputation Prediction Noisy data: Outlier removal Smoothing Normalization Data Reduction: Attribute selection Fitting parametric models Sampling Histograms Discretization Aggregation 标准化就是已知随机变量X的期望Q,方差为S的平方的话,令新变量为(X-Q)/S,新变量就是一个标准的方差 标准方差(standard deviation)定义 就是方差的平方根:一组数据中的每一个数与这组数据的平均数的差的平方的和再除以数据的个数,取平方根即是。 即:标准方差={[∑(Xn-X)^2]/n}^(1/2)的平方根,(X表示这组数据的平均数。) * 主成分分析(Principal Component Analysis) 在许多领域的研究与应用中,往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便进行分析寻找规律。 多变量大样本无疑会为研究和应用提供了丰富的信息,但也在一定程度上增加了数据采集的工作量,更重要的是在大多数情况下,许多变量之间可能存在相关性,从而增加了问题分析的复杂性,同时对分析带来不便。 如果分别对每个指标进行分析,分析往往是孤立的,而不是综合的。盲目减少指标会损失很多信息,容易产生错误的结论。 主成分分析 因此需要找到一个合理的方法,在减少需要分析的指标同时,尽量减少原指标包含信息的损失,以达到对所收集数据进行全面分析的目的。 由于各变量间存在一定的相关关系,因此有可能用较少的综合指标分别综合存在于各变量中的各类信息。主成分分析与因子分析就属于这类降维的方法。 主成分分析与因子分析是将多个实测变量转换为少数几个不相关的综合指标的多元统计分析方法。 主成分分析 例1:生产服装有很多指标,比如袖长、肩宽、身高等十几个指标,服装厂生产时,不可能按照这么多指标来做,怎么办?一般情况,生产者考虑几个综合的指标,象标准体形、特形等。 例2:企业经济效益的评价,它涉及到很多指标。例百元固定资产原值实现产值、百元固定资产原值实现利税,百元资金实现利税,百元工业总产值实现利税,百元销售收入实现利税,每吨标准煤实现工业产值,每千瓦时电力实现工业产值,全员劳动生产率,百元流动资金实现产值等,我们要找出综合指标,来评价企业的效益。 主成分分析 例3:假定你是一个公司的财务经理,掌握了公司的所有数据,比如固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等。 如果让你向上司介绍公司状况,你能原封不动地介绍所有指标和数字吗? 当然不能。 你必须要对各个方面作出高度概括,用一两个指标简单明了地说清楚情况。 主成分分析 很多应用都会遇到有很多变量的数据,这些数据的共同特点是变量很多,在如此多的变量之中,有很多是相关的。 因此我们希望从中综合出一些少数主要的指标,这些指标所包含的信息量又很多。这些特点,使我们在研究复杂的问题时,容易抓住主要矛盾。 如何才能找出综合指标? 主成分分析 由于实测的变量间存在一定的相关关系,因此有可能用较少数的综合指标分别综合存在于各变量中的各类信息,而综合指标之间彼此不相关,即各指标代表的信息不重叠。综合指标称为主成分(提取几个主成分)。 若有一些指标 ,取综合指标即它们的线性组合F,当然有很多,我们希望线性组合F包含很多的信息,即var(F)最大,这样得到F记为 ,然后再找 , 与 无关,以此类推,我们找到了一组综合变量 ,这组变量基本包含了原来变量的所有信息。 主成分分析 主成分分析 在数据挖掘领域,以及
文档评论(0)