地体现数据所在总体潜在的几何特性。fisher判别 .doc

下载文档 降价啦

0
0
约 9页
2017-06-27 发布于天津
举报
版权申诉
保障服务

地体现数据所在总体潜在的几何特性。fisher判别 .doc

1、本文档共9页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

地体现数据所在总体潜在的几何特性。fisher判别

基于投影的组合判别方法梁飞豹*，陈婷婷（福州大学数学与计算机科学学院福建福州 350108）摘要：由于数据的复杂性，一般的投影判别方法在应用上有一定的局限性，本文引入权重因子对不同投影方法进行组合，从而提出一种组合判别方法，以提高判别回代正确率与预测效果。通过实际例子和模拟数据验证了组合判别模型的判别效果良好，回代正确率相比于单一判别方法高，预测效果也优于单一判别方法。关键词： Fisher判别；内聚外散；回代正确率；权重；组合判别中图分类号：文献标识码：A国家自然科学基金资助项目（个来自总体的维样本其中表示第个总体的样本数，。在介绍投影方法之前，我们先定义几个必要的基本参量。总体的样本均值向量: ；总样本均值向量：；样本组间离差阵：；样本总组内离差阵：；总体“相对于”总体的组间离差阵：；总体的组内离差阵：；总体的组内离差阵：。一、Fisher投影将维空间上的点经投影后变为一维实数上的点，并希望投影后的数据其组内差尽量小，组间差尽量大，即所求投影向量为：其中为的待定向量。易知是的最大的特征值所对应的特征向量。由此投影的判别准则是：对于给定的任一样品，比较投影后样品与总体经投影后重心（均值）的距离，即如果则判断样品。维投影到一维，但我们只希望投影后的数据，其组间差尽量大，而不考虑组内差（这主要是为了避免维空间上样本矩阵的组内离差阵奇异），即所求的投影向量为：，显然是的最大的特征值所对应的特征向量。由此投影的判别准则与Fisher投影的判别准则一致，即对于给定的任一样品，如果则判断样品。维投影到一维，我们希望投影后的数据，属于第一类的样本聚集在一块，而不属于第一类的样本远离第一类（为：，显然为的最大的特征值所对应的特征向量。这种投影的核心是事先要选好哪一类样本为指定的“第一类”，根据“内聚外散”的思想，“第一类”应该比较“集中”，所以一般以二个总体样本方差（取方差矩阵的行列式）大小来衡量它们的“集中”度，哪个方差行列式越小，就选择这一类为“第一类”。此时其判别准则为：以“第一类”投影后的重心点（即均值）为中心，确定一个区间（称为判别区间），对于任一给定的样品，如果，则判断样品，否则判断样品。我们为了能与Fisher投影有一致的判别准则，可以对“内聚外散”投影后的数据进行“折叠”处理，即以总体经投影后重心为中心，将数据往右“对折”。经“对折”后，判别准则可与Fisher投影的判别准则一致。四、改进的“内聚外散”投影思想同上，还是希望投影后的数据，属于第一类的样本聚集在一块，而不属于第一类的样本尽可以地分散，即所求的投影向量为：，显然，为的最大的特征值所对应的特征向量。此时判别准则同上，以“第一类”投影后的重心点（即均值）为中心，确定一个区间（称为判别区间），对于任一给定的样品，如果，则判断样品，否则判断样品。同样可以对投影后的数据进行“折叠”处理，则判别准则可与Fisher投影的判别准则一致。基于不同投影得到的判别方法是适用于不同的数据类型。Fisher投影判别在处理两个总体的样本数据均为高斯分布的时，效果好。而当两个总体的样本数据呈现一个集中，另一个相对分散时，“内聚外散”投影则具有更明显的优点。因此，可以说并没有一种能够适用于所有的数据类型的判别方法，下面我们将寻找一种组合方式，使得能够较好地适用于不同的数据类型做判别。 2 组合判别模型本文建立的组合判别模型拟将四种投影判别方法所得到的回代正确率作为权重，进行加权的判别方法：例如，设对某一待判样本，两个总体，利用四个判别方法得到四个模型的回代正确率值分别为，利用这些回代正确率值构成一个对的最终判别结果，即所属的类别，这种组合判别方法建立在对各个方向投影利用的基础上，它集多种单一判别模型所包含的信息，进行最优组合。因此，在大多数情况下，通过组合判别可以达到提高回代正确率的目的。值得注意的是，高维的样本数据经过不同的投影降到一维后，并不能直接加权组合，而是需要处理成具有统一的标准后才能进行组合的。我们采取的处理方式是：将总体经投影后重心（均值）落在“0”处，而总体的重心落在了“1”处。组合判别方法的算法如下： (Ⅰ) 选好哪一类样本为指定的“第一类”，以两个个总体样本方差（取方差矩阵的行列式）大小来衡量它们的“集中”度，哪个方差行列式越小，就选择这一类为“第一类”； (Ⅱ)将两个总体分别进行四种投影变换，即总体分别向上投影，即，可得； (Ⅲ)对做“对折”处理，即以为中心，整个数据向右折叠，得到新的，然后对作如下处理（对投影后的数据进行“压缩”或“扩展”，保证不同投影后的数据具有“一致性”）：即将投影后的的重心落在了“0”处，的重心落在了“1