机器学习之降维—PCA,LDA.ppt

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
机器学习之降维—PCA,LDA

前 个主成分的贡献率之和 称为主成分 的累计贡献率,它表明 解释 的能力。 通常取(相对于 )较小的 ,使得累计贡献达到一个较高的百分比(如80%~90%)。此时, 可用来代替 ,从而达到降维的目的,而信息的损失却不多。 主成分的性质和例子 * 主成分分析的步骤 第一步:由X的协方差阵Σx,求出其特征根,即解方程 ,可得特征根 。 一、基于协方差矩阵 * 第二步:求出分别所对应的特征向量U1,U2,…,Up, 第三步:计算累积贡献率,给出恰当的主成分个数。 第四步:计算所选出的k个主成分的得分。将原始数据的中心化值: 代入前k个主成分的表达式,分别计算出各单位k个主成分的得分,并按得分值的大小排队。 课堂作业:实例参数 该实例符合三维高斯分布,具体参数如下: 均值向量:μ= [0,5,2]T 协方差矩阵: PCA实例 软木塞数据集 * 作业 (1)给定Rock数据,请使用PCA方法,找出类marble和granite的主成分特征集合。 线性判别分析(LDA) Linear Discriminant Analysis 引入 主要内容 一、LDA介绍 二、LDA基本思想 三、LDA目标 四、LDA与PCA区别 五、LDA的公式推导 六、LDA实例 介绍 线性判别分析(Linear?Discriminant?Analysis,?LDA),也叫做Fisher线性判别(Fisher?Linear?Discriminant?,FLD),是模式识别的经典算法,1936年由Ronald Fisher首次提出,并在1996年由Belhumeur引入模式识别和人工智能领域。 基本思想 线性判别分析的基本思想是将高维的模式样本投影到最佳鉴别矢量空间,以达到抽取分类信息和压缩特征空间维数的效果。投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离,即模式在该空间中有最佳的可分离性。 因此,它是一种有效的特征抽取方法。使用这种方法能够使投影后模式样本的类间散布矩阵最大,并且同时类内散布矩阵最小。 可以看到两个类别,一个绿色类别,一个红色类别。左图是两个类别的原始数据,现在要求将数据从二维降维到一维。直接投影到x1轴或者x2轴,不同类别之间 会有重复,导致分类效果下降。右图映射到的直线就是用LDA方法计算得到的,可以看到,红色类别和绿色类别在映射之后之间的距离是最大的,而且每个类别内 部点的离散程度是最小的(或者说聚集程度是最大的)。 LDA的目标: LDA的目标: 我们分类的目标是,使得类别内的点距离越近越好(集中),类别间的点越远越好。 LDA与PCA区别: LDA与PCA(主成分分析)都是常用的降维技术。PCA主要是从特征的协方差角度,去找到比较好的投影方式。LDA更多的是考虑了标注,即希望投影后不同类别之间数据点的距离更大,同一类别的数据点更紧凑。 题目: 主成分分析 PCA 预习内容 (1)均值的概念和定义,期望用来表示什么? (2)方差的概念和定义,方差用来表示什么? (3)协方差和协方差矩阵的概念和定义,协方差的作用及意义? 请大家掌握:方差的数学运算,期望的数学运算,协方差矩阵的数学运算,方阵的特征值与特征向量的求解方法 1前言 假定你是一个公司的财务经理,掌握了公司的所有数据,比如固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等。 实例1 实例2 你必须要把各个方面作出高度概括,用一两个指标简单明了地把情况说清楚。 * (1) 如何作主成分分析? 当分析中所选择的变量具有不同的量纲,变量水平差异很大,应该怎样选择? 在力求数据信息丢失最少的原则下,对高维的变量空间降维,即研究指标体系的少数几个线性组合,并且这几个线性组合所构成的综合指标将尽可能多地保留原来指标变异方面的信息。这些综合指标就称为主成分。要讨论的问题是: 2. 问题的提出 * 各个变量之间差异很大 * (2) 如何选择几个主成分。 主成分分析的目的是简化变量,一般情况下主成分的个数应该小于原始变量的个数。应该保留几个主成分才能最大化的代表原始信息? * 美国的统计学家斯通(Stone)在1947年关于国民经济的研究是一项十分著名的工作。他曾利用美国192

您可能关注的文档

文档评论(0)

wyjy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档