偏最小二乘法基本知识.docx

下载文档

9
0
约4.26千字
约 7页
2017-10-07 发布于重庆
举报
版权申诉
保障服务

偏最小二乘法基本知识.docx

1、本文档共7页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

偏最小二乘法基本知识

偏最小二乘法（PLS）简介-数理统计偏最小二乘法partial least square method是一种新型的多元统计数据分析方法，它于1983年由伍德(S.Wold)和阿巴诺(C.Albano)等人首次提出。近几十年来，它在理论、方法和应用方面都得到了迅速的发展。偏最小二乘法长期以来，模型式的方法和认识性的方法之间的界限分得十分清楚。而偏最小二乘法则把它们有机的结合起来了，在一个算法下，可以同时实现回归建模(多元线性回归)、数据结构简化(主成分分析)以及两组变量之间的相关性分析(典型相关分析)。这是多元统计数据分析中的一个飞跃。偏最小二乘法在统计应用中的重要性体现在以下几个方面：偏最小二乘法是一种多因变量对多自变量的回归建模方法。偏最小二乘法可以较好的解决许多以往用普通多元回归无法解决的问题。偏最小二乘法之所以被称为第二代回归方法，还由于它可以实现多种数据分析方法的综合应用。主成分回归的主要目的是要提取隐藏在矩阵X中的相关信息，然后用于预测变量Y的值。这种做法可以保证让我们只使用那些独立变量，噪音将被消除，从而达到改善预测模型质量的目的。但是，主成分回归仍然有一定的缺陷，当一些有用变量的相关性很小时，我们在选取主成分时就很容易把它们漏掉，使得最终的预测模型可靠性下降，如果我们对每一个成分进行挑选，那样又太困难了。偏最小二乘回归可以解决这个问题。它采用对变量X和Y都进行分解的方法，从变量X和Y中同时提取成分(通常称为因子)，再将因子按照它们之间的相关性从大到小排列。现在，我们要建立一个模型，我们只要决定选择几个因子参与建模就可以了基本概念偏最小二乘回归是对多元线性回归模型的一种扩展，在其最简单的形式中，只用一个线性模型来描述独立变量Y与预测变量组X之间的关系:? ? Y= b0 + b1X1 + b2X2 + ... + bpXp在方程中，b0是截距，bi的值是数据点1到p的回归系数。例如，我们可以认为人的体重是他的身高、性别的函数，并且从各自的样本点中估计出回归系数，之后，我们从测得的身高及性别中可以预测出某人的大致体重。对许多的数据分析方法来说，最大的问题莫过于准确的描述观测数据并且对新的观测数据作出合理的预测。多元线性回归模型为了处理更复杂的数据分析问题，扩展了一些其他算法，象判别式分析，主成分回归，相关性分析等等，都是以多元线性回归模型为基础的多元统计方法。这些多元统计方法有两点重要特点，即对数据的约束性：? ? 1.变量X和变量Y的因子都必须分别从XX和YY矩阵中提取，这些因子就无法同时表示变量X和Y的相关性。? ? 2.预测方程的数量永远不能多于变量Y跟变量X的数量。偏最小二乘回归从多元线性回归扩展而来时却不需要这些对数据的约束。在偏最小二乘回归中，预测方程将由从矩阵YXXY中提取出来的因子来描述；为了更具有代表性，提取出来的预测方程的数量可能大于变量X与Y的最大数。简而言之，偏最小二乘回归可能是所有多元校正方法里对变量约束最少的方法，这种灵活性让它适用于传统的多元校正方法所不适用的许多场合，例如一些观测数据少于预测变量数时。并且，偏最小二乘回归可以作为一种探索性的分析工具，在使用传统的线性回归模型之前，先对所需的合适的变量数进行预测并去除噪音干扰。因此，偏最小二乘回归被广泛用于许多领域来进行建模，象化学，经济学，医药，心理学和制药科学等等，尤其是它可以根据需要而任意设置变量这个优点更加突出。在化学计量学上，偏最小二乘回归已作为一种标准的多元建模工具。计算过程基本模型作为一个多元线性回归方法，偏最小二乘回归的主要目的是要建立一个线性模型：Y=XB+E，其中Y是具有m个变量、n个样本点的响应矩阵，X是具有p个变量、n个样本点的预测矩阵，B是回归系数矩阵，E为噪音校正模型，与Y具有相同的维数。在通常情况下，变量X和Y被标准化后再用于计算，即减去它们的平均值并除以标准偏差。偏最小二乘回归和主成分回归一样，都采用得分因子作为原始预测变量线性组合的依据，所以用于建立预测模型的得分因子之间必须线性无关。例如：假如我们现在有一组响应变量Y(矩阵形式)和大量的预测变量X(矩阵形式)，其中有些变量严重线性相关，我们使用提取因子的方法从这组数据中提取因子，用于计算得分因子矩阵：T=XW，最后再求出合适的权重矩阵W，并建立线性回归模型：Y=TQ+E，其中Q是矩阵T的回归系数矩阵，E为误差矩阵。一旦Q计算出来后，前面的方程就等价于Y=XB+E，其中B=WQ，它可直接作为预测回归模型。偏最小二乘回归与主成分回归的不同之处在于得分因子的提取方法不同，简而言之，主成分回归产生的权重矩阵W反映的是预测变量X之间的协方差，偏最小二乘回归产生的权重矩阵W反映的是预测变量X与响应变量Y之间的协方差。在建模当中，偏最小二乘回归产生了pxc的权重矩阵W