- 1、本文档共48页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第5章__特征选择与提取
1.K-L展开式 aj:随机系数; 用有限项估计X时 : 引起的均方误差: 代入X、 ,利用 由 两边 左乘 得 。 uj为确定性向量 R:自相关矩阵。 :拉格朗日乘数 说明:当用X的自相关矩阵R的特征值对应的特征向量展开X 时,截断误差最小。 选前d项估计X时引起的均方误差为 因此,当用X的正交展开式中前d项估计X时,展开式中 的uj应当是前d个较大的特征值对应的特征向量。 K-L变换方法: 对R的特征值由大到小进行排队: 均方误差最小的X的近似式: 矩阵形式: 式中, , 。 其中: (5-49) —— K-L展开式 对式(5-49)两边左乘U T : —— K-L变换 系数向量a就是变换后的模式向量。 自相关矩阵 2.利用自相关矩阵的K-L变换进行特征提取 第一步:求样本集{X}的总体自相关矩阵R。 决定压缩 后的维数 * * 5.1 基本概念 5.2 类别可分性测度 5.3 基于类内散布矩阵的单类模式特征提取 5.4 基于K-L变换的多类模式特征提取 第5章 特征选择与特征提取 5.1 基本概念 ① 由于测量上可实现性的限制或经济上的考虑,所获得的测量值为数不多。 ② 能获得的性质测量值很多。如果全部直接作为分类特征,耗费机时,且分类效果不一定好。有人称之为“特征维数灾难”。 特征选择和提取的目的:经过选择或变换,组成识别特征,尽可能保留分类信息,在保证一定分类精度的前提下,减少特征维数,使分类器的工作即快又准确。 1.两种数据测量情况 (1) 具有很大的识别信息量。即应具有很好的可分性。 (2) 具有可靠性。模棱两可、似是而非、时是时非等不易判别 的特征应丢掉。 (3) 尽可能强的独立性。重复的、相关性强的特征只选一个。 (4) 数量尽量少,同时损失的信息尽量小。 2.对特征的要求 3. 特征选择和特征提取的异同 (1)特征选择:从L个度量值集合 中按一定准 则选出供分类用的子集,作为降维(m维,m L)的分类 特征。 (2)特征提取:使一组度量值 通过某种变换 产生新的m个特征 ,作为降维的分类特征, 其中 。 (c)是具有分类能力的特征,故选(c), 扔掉(a) 、 (b) 。 B A 解:[法1] ① 特征抽取:测量三个结构特征 (a) 周长 (b) 面积 (c)两个互相垂直的内径比 —— 特征选择:一般根据物理特征或结构特征进行压缩。 ② 分析: 例:特征选择与特征提取的区别:对一个条形和圆进行识别。 当模式在空间中发生移动、旋转、缩放时,特征值应保持不变,保证仍可得到同样的识别效果。 [法2]:① 特征抽取:测量 物体向两个坐标轴的投影 值,则A、B各有2个值域区 间。可以看出,两个物体的 投影有重叠,直接使用投影 值无法将两者区分开。 ② 特征选择:将坐标系按逆时针方向做一旋转变化,或物体按顺时针方向变,并适当平移等。根据物体在 轴上投影的坐标值的正负可区分两个物体。 ——特征提取,一般用数学的方法进行压缩。 B A B A 5.2 类别可分性测度 5.2.1 基于距离的可分性测度 类别可分性测度:衡量类别间可分性的尺度。 相似性测度:衡量模式之间相似性的一种尺度 类内距离和类间距离 类概率密度函数 类别可 分性测度 空间分布: 随机模式向量: 错误率 与错误率有关的距离 1.类内距离和类内散布矩阵 1) 类内距离:同一类模式点集内,各样本间的均方距离。 平方形式: Xi,,Xj: n维模式点集{X}中的任意两个样本 。 特征选择和提取的结果应使类内散布矩阵的迹愈 ?愈好。 特征选择和提取的结果应使类内散布矩阵的迹愈 小愈好。 若{X}中的样本相互独立,有 式中,R:该类模式分布的自相关矩阵; M:均值向量; C:协方差矩阵; :C主对角线上的元素,表示模式向量第k个分量的方差; tr:矩阵的迹(方阵主对角线上各元素之和)。 2)
文档评论(0)