6-汉字识别教材课程.ppt

  1. 1、本文档共80页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
6-汉字识别教材课程.ppt

第六章 模式识别的应用 汉字识别;1、文字识别问题;1)汉字识别;根据应用情况的不同汉字识别具体又分为印刷体汉字识别和手写体汉字识别。;印刷体汉字识别,从识别字体上可分为单体(一般为宋体)印刷汉字识别和多媒体汉字识别;从识别文字品质上可分为高品质印刷汉字识别和低品质印刷汉字识别;从应用范围上可分为专用印刷汉字识别和通用印刷汉字识别。 ;汉字识别难度;不同字体的同一汉字的结构约80%相同,但书写风格,笔划粗细形状,笔划装饰等有一定的差异。不同印刷体汉字字形差别主要有:;(4)笔划关系变化:如左偏旁口,黑体为正方形,其他体左竖笔较长。;2)汉字OCR技术发展历史;2)汉字OCR技术发展历史;当前进展状态;3)国内主要研究机构;国内主要研究机构/人物;2、汉字识别系统;1)系统构成;信号采集方式;2)OCR技术一般流程;流程简介;流程简介;流程简介;流程简介;3??? 归一化;质心归一化;3)归一化;对于后一种归一化方法,先计算文字的:;下面计算水平和垂直方向的散度σI 和 σJ :;3、汉字的结构特性分析;汉字的图像点阵;周边特征分析;周边特征分析;下面定义周边扫描空程长度熵,它们是四边结构特征所包含信息量的度量:;左图给出了四种周边熵的分布,从图中可见:(1)周边熵是较高。熵值一般均大于2;2)角部位置区域的熵值最大。说明这些部位扫描线空程的长度变化多,这些部分结构开头多,所以提取周边特征和角部特征或选取角部结构作为部首的特征是合理的。;游程统计特性及分析;为了对汉字游程分布有一个大概的了解,对八个离散方向(00,200,450,700,900,1100,1350,1600)40×40点阵的汉字进行了游程分布统计。不同角度的平均黑游程长度见下表。;笔划特性及分析;上图是笔划的数目分布图;左图是笔划的长度 分布图;字根统计特性及分析;4、印刷体汉字的特征描述;1) 复杂指数;从文字四周边框开始,向内取适当宽度,以此宽度分割出文字四周的四个部分。根据每一个部分中含有文字黑像素的多少分为四级编码(0,1,2,3)。;一次粗外围特征反映了文字轮廓特征,二次粗外围特征在某种程度上反映了文字内部结构。;4)粗网格特征;5)笔划密度特征;6)汉字特征点;汉字笔划特征点可以取端点、折点、歧点和交点。端点是笔划的起(或终)点且不与别的笔划相接;折点是笔划方向出现显著变化的点;歧点是三叉点,要求其中两个笔段分支方向相同:交点是四叉点且有两对相等的对顶角。见下图所示。;汉字笔划特征点集中了主要的汉字结构信息。端、 折点决定了一个汉字的笔划位置和形状;歧点、交 点决定了不同笔划间的相互连接关系。当然还可以 定义汉字关键背景点以弥补难以区别相似笔划特征 点汉字的不足。;汉字特征点反映了汉字结构特征。和统计特征相比,汉字中非结构信息(如笔划粗细、字形位置变动、少量旋转等)的不稳定性,从理论上讲,对汉字特征点的提取无影响。所以,用特征点来识别汉字,可以增加抗噪声能力,提高实用性。;5、汉字识别方法;1)相似性度量方法;(4)复合相似度;(5)混合相似度;2 ) 句法模式识别方法;2 ) 句法模式识别方法;标;2 ) 句法模式识别方法;2 ) 句法模式识别方法;2) 句法模式识别方法;3)统计模式识别方法;3)统计模式识别方法;直接图像特征;变换特征;变换特征:矩特征;变换特征: 投影直方图;变换特征: 投影直方图;变换特征:几何描绘子;汉字识别通常都采用层次化的分类结构,即对汉字字库做多级分类,然后再细分判别,从而大大提高识别效率。;(2)粗分类的速度要快。这要求分类的算法简单,同时要求分在各个类别中的汉字的数目比较平均,从而提高分类的效率。;;粗分类方法:包含配选法;在没有和标准图像相“与”匹配前,先把未知文字图像横线加粗成大于等于3个像素宽,以利于包含相匹配的模板,但是也加大了包含其他标准模板的概率,因而误识率会增加。为避免文字笔划绝对位置移动带来的干扰,需要把图像沿上下左右四个方向平移一个像素,然后分别与标准模板相匹配。只要有一次匹配成功,就判断该文字属于标准模板图像的类别。由此可见,包含匹配法实际上就是模板匹配法。;细分类方法:基于小笔段特征的层次结构;小笔段组成了部件,部件又组成了汉字。由小笔段到部件,再到汉字的层次结构描述,反映了汉字结构不同层次的约束关系。;细分类方法:差笔划;(3)对SA第i号笔划SAi 在5×5网格中挪动,和WB匹 配,通过下式求出最大一致度σmax。;(5)若差笔划仅有一个(如gA )时,把输入文字x 图形在3×3网格中同存在的差笔划gA进行位置匹配, 由下式求出最大一致度σA (越大越好);若粗分类后,式中文字大于两个时,则先取两 个来进行上述算法的判别,以后反复取两个作判别, 来决定

文档评论(0)

youngyu0329 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档