第三章 线性判别分析_非参数判别分类方法.ppt

第三章 线性判别分析_非参数判别分类方法.ppt

  1. 1、本文档共139页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
复习:特征向量和特征空间 对于待识别的物理对象如何描述? 假设一个待识别的物理对象用其d个属性观察值描述,称之为d个特征,这组成一个d维的特征向量,而这d维特征所有可能的取值范围则组成了一个d维的特征空间。 例:假设苹果的直径尺寸限定在7-15厘米之间,它们的重量在3-8两之间变化。如果直径长度x用厘米为单位,重量y以两为单位。那么,由x值从7到15,y值从3到8包围的二维空间就是对苹果进行度量的特征空间。 引言 参数与非参数判别方法的一个重要区别:如何确定判别函数及决策面方程的类别? 基于统计参数的决策分类方法:由样本分布规律决定; 非参数判别方法:预先由设计者确定,然后利用训练样本集提供的信息确定这些函数中的参数。 —— 两个部分:选择函数类型与确定最佳参数。 本章重点 掌握非参数判别分类法的原理,与参数判别分类方法的区别 。 掌握线性判别函数的形式、几何意义及三分类问题的划分方法。 学习线性分类器的两种典型算法: 以Fisher准则为代表的传统模式识别方法; 以感知准则函数为代表的机器自学习方法。 用近邻法对事物进行分类。    分析w1方向之所以比w2方向优越, 可以归纳出这样一个准则:即向量w的方向选择应能使两类样本投影的均值之差尽可能大些, 而使类内样本的离散程度尽可能小。这就是Fisher准则函数的基本思路。 为了使解向量更加可靠, 应选择位于解区中间的解向量, 因此引入余量b0, 即使解向量满足vTzib(i=1, 2, …, N)。 两点说明: 感知准则函数方法只是对线性可分样本集有效,而对线性不可分的样本集,该算法不能收敛。 这一节对感知准则函数的讨论,只是很初步的。但这种利用错误提供的信息,进行自修正的思想意义是十分深远的。这种只解决线性分类的感知器称为单层感知器,在此基础上发展起来的多层感知器在原理上能解决非线性分类、多类划分,以及非线性拟和非线性映射等多种问题。 3.3 分段线性分类器   线性分类器的分界面是一个超平面。当类与类之间不能用任何一个超平面实现划分时, 类间的分界面应是一个超曲面。曲线可以由多个线段近似表达, 曲面可以由多个平面逼近, 因此, 可以用多个超平面近似表达超曲面, 分段线性分类器正是基于这种思路而设计的一种分类器。 3.3.1 分段线性分类器的定义 线性判决函数只能解决线性可分问题。 在线性不可分的情况下,可以采用分段线性判别或二次函数判别等方法。 分段线性判决函数确定的决策面是由若干段超平面组成的。  与线性判别函数相比,分段线性判别函数设计中首先要解决的问题是分段线性判别函数的分段段数问题。 分段段数过少,其分类效果必然要差;但段数又要尽可能少,以免分类判别函数过于复杂,增加分类决策的计算量。 在有些实际的分类问题中,同一类样本可以用若干个子类来描述,这些子类的数目就可作为确定分段段数的依据。 在有些情况下样本分布及合适子类划分并不知道,往往需要采用一种聚类的方法,设法将样本划分成相对密集的子类,然后用各种方法设计各段判别函数。 3.3.2 分段线性距离分类器 正态分布条件下,两类别问题在各特征统计独立、同方差、且先验概率相等情况下,最小错误率决策可按最小距离决策,最小距离分类器的判决函数为 显然最小距离判别方法只有在各类别密集地分布在其均值附近时才有效。 右图所示情况,若企图再用每类一个均值代表点产生最小距离分类器,就会产生很明显的错误率。 在这种情况下,可以将各类别划分成相对密集的子类,每个子类以它们的均值作为代表点,然后按最小距离分类,可以有比较满意的效果。 将样本划分成合适的子类是分段线性距离分类器性能好坏的一个关键问题。 3.3.3 分段线性分类器设计的一般考虑 设计分段线性分类器的前提条件是有一组已知类别的样本集, 其关键在于解决以下两个问题:  (1) 根据样本集确定子类数目及各子类的划分;   (2) 利用样本集计算各子类判别函数的权向量和阈值权。 根据已知条件的不同, 可以分别采取不同的方法。 3.4 近邻分类器 最初的近邻法是由Cover和Hart于1968年提出的,是非参数法中最重要的方法之一。 最小距离分类器将各类训练样本划分成若干子类,并在每个子类中确定代表点,一般用子类的均值或邻近均值的某一样本为代表点。实质就是将样本判属于与代表点距离最近的类。 该法的缺点是所选择的代表点并不一定能很好地代表各类,其后果将使错误率增加。 一、最近邻法的原理及判决准则  近邻法的基本思想:以全部训练样本作为“代表点”,计算测试样本与这些“代表点”,即所有样本的距离,并以最近邻者的类别作为决策。

文档评论(0)

独角戏 + 关注
实名认证
内容提供者

本人有良好思想品德,职业道德和专业知识。

1亿VIP精品文档

相关文档