- 1、本文档共58页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一个例子 设想有一个鱼类加工厂,希望能将传送带上的鱼的品种的分类过程自动进行. 目的: 鲈鱼( See bass) 种类 鲑鱼( Salmon) 问题分析 架设一个摄像机,拍摄若干样品的图像,来区分鲑鱼和鲈鱼 长度 光泽 宽度 鳍的数目 嘴的位置、等等 这些就作为我们模式分类的特征 处 理 特 征 提 取 分 类 鲈鱼 鲑鱼 预处理 使用分割操作,把每条鱼与其它鱼以及与背景分离开来 把每条鱼的特征送到特征提取器,这个装置的目的在于缩减特征的冗余程度,使得剩下的特征都是对分类很有用的特征 然后再把提取后的特征送到分类器 归类 据说:鲈鱼要比鲑鱼长些 选择长度作为一个的特征进行分类 鲈鱼 鲑鱼 单独使用长度一个特征,结果令人失望. 不存在单一的阈值能够将两种鱼无歧义地分开。出现分类错误是不可避免的。图中的l*是一个最佳的阈值,从这里分类的平均误差率最小。 因此,选取光泽度作为另外一个可能的特征. 鲑鱼 鲈鱼 阀值界与代价的关系 例:鱼类加工厂,顾客能接受表示着“鲈鱼”的罐头中偶尔混入了鲑鱼,却无法忍受鲈鱼出现在所谓的“鲑鱼”罐头中。 把判决边界向光泽度更小的值移动,以减少将鲈鱼误判作鲑鱼的数目,使代价最小(以免引起顾客反感) 决策论的任务 若仍不满意,但又没有更好的图像特征了 采用光泽度与宽度的复合 Fish xT = [x1, x2] 光泽度 宽度 误差率更小了,当然仍有一些错误 因此,我们单独使用一个特征是不够的,我们需要复合多个特征(一个特征向量)用于分类。 注意,复合的特征之间应该是不相关的,最起码复合之后不应该使得分类效果反而更差了(例如把一个噪音特征复合到一个有用的特征当中) 最理想的判决曲线应该能够提供最优的分类效果。如下图所示: 然而,我们高兴得太早了,因为我们设计分类器的最终目标使用来正确归类新的样本。 推广能力问题 (Generalization) 上图判决曲线是对训练样本的分类性和分界面复杂度的一个最优折中,因而对将来的新的模式的分类性能也更好。 传感器 - 传感器的使用(摄像机和麦克风) 问题的难度很大程度上依赖于传感器的特性和局限性,比如带宽、分辨率、灵敏度、失真、信噪比等等。 分割和组织 - 模式应该是很好的分离,没有重叠现象 模式识别系统 特征提取 最具有鉴别力的特征 不变性:平移、旋转、尺度 分类器 根据特征提取器得到的特征向量来给一个被测对象赋一个类别标记 后处理 采用上下文信息来改善系统的性能,而不仅仅是目标模式自身。 模式识别系统 传感器将图片、声音或其他物理输入转换为信号数据,分隔器将物体与背景及其他物体分开。特征提取器提取用于分类的物理属性。分类器根据特征给物体赋予类别标记。最后,后处理器作一些其他的考虑,如上下文信息、错误代价等。 模式识别系统 设计循环 数据采集 特征选择 模型选择 训练 评价 数据采集 总结: 在开发一个PR系统总的费用中,数据采集部分占了令人吃惊的大比重。 怎样才能知道已经采集到足够多有代表性的供训练和性能测试用的数据了呢? 特征选择 根据特定问题领域的性质,选择那些容易提取、对不相关变形保持不变、对噪音不敏感、以及对区分不同类别的模式很有效的特征集。 模型选择 对我们先前鱼分类器的性能不满意,因而想尝试一下完全不同类型的模型。 训练 利用样本数据来确定分类器的过程称为训练分类器。“基于样本的学习”的方法是设计分类器最有效的方法。本教材将以很大篇幅来讨论各种各样不同的训练和选择模型的算法。 评价 错误率(从一个特征集切换到另一特征集) 计算复杂度 计算复杂度和分类表现如何折中? 例:光学字符识别 20x20点阵图像(1e+120) 计算复杂度是所采用的特征维数、模式的数目、或类别数的什么函数? 学习和适应 有监督学习 存在一个教师信号,对训练样本及中的每个输入样本能提供类别标记和分类代价,并寻找能降低总体代价的方向。 无监督学习 无显示教师,系统对输入样本自动形成“聚类”或“自然的”组织。 本章小结 至此,大家或许被模式识别问题的数量、复杂度、和子问题的范畴搞得晕头转向了 PR的进展至少在以下三
文档评论(0)