- 1、本文档共6页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
??
?
??
基于二叉树原理的支持向量机模型的字符识别
?
??
?
?
?
?
?
?
?
???
?
?
?
?
?
摘要:字符识别是电子设备将图片翻译成计算机文字的一种方法。准确的识别字符对文字的处理具有关键性的意义。运用特征特性及MLP的多层感应器算法解决有效特征的选取。首先了解特征选取类型为网格特征,穿越特征,外围特征。其次对于数据进行分类,并通过神经网络多层感知器得到数据变量的重要性,最终选取字符黑色像素点分布,的平均方差和的平均方差,与的边缘相关性等作为字符特征。
关键词:字符识别;二叉树原理;支持向量机;R语言
一、模型假设
在使用二叉树模型时,规定树层在5层高,排除步数小时精度不高和步数过大时计算难度复杂的问题给模型求解所带来的困扰。
在运用支持向量机时,假设题目中所给的样本集中并没有数据缺失,筛选过后的每一个个案中的数据均为完整的、可靠的;对于本文的非线性问题采取对Kernel?Function的一一试用。
二、模型的建立及求解
2.1数据的预处理
对数据进行分析,理解数据意义。表1是描述图像分割状况,即每一个样本所在的矩形区域的位置以及成像状况。
表1变量数据的意义
编号
变量数据
数据意义
1
字符所在矩形区域的水平位置(整数)
区域水平位置,从图像左侧的边缘点开始计算像素,在最小的矩形框内绘制出所有黑色像素。
2
字符所在矩形区域的竖直位置(整数)
区域垂直位置,从底部开始计算像素
3
矩形区域的宽度(整数)
区域的宽度(以像素为单位)
4
矩形区域的高度(整数)
区域的高度(以像素为单位)
5
矩阵区域的黑色像素数(整数)
字符图像中黑色像素的总数
2.2算法陈述
第一步,为样本所有可能的分割选择分类特征子集。采用分散成度作为判断将样本是否分为两类的特征选择标准。设为样本集,将分为和,即,若,和分别表示包含的样本数、样本和投影在第维特征上的样本,则在第维的特征上的分散程度的计算公式规定如下:
(1)
其中,表示在第维的特征上的半径,表示在第维的特征上的圆心,表示在第维的特征上和中心距离,其几何意义如图11所示。分离度用来反映包含的和在第维特征上的可分离性,分散成度越大,说明第维的特征对分类效果越好。
图1几何意义
第二步,进行各个分割的类间距的计算。首先定义直接距离为类和类均值向量间的距离减去各自的类的平均半径,公式如下:
(2)
(3)
其中,表示第类样本集的均值向量,为类和类均值向量间的距离,和分别为类及类的类平均半径,为类中的样本数目,称为类和类之间的类均值距离,如图12。
图2符号实际意义
第三步,以分割和特征子集训练SVM子分类器。每一个SVM子分类器包含一个线性核函数。根据生成的二叉树,利用二值SVM训练算法构造二叉树各内节点的最优超平面。
参考文献
[1]李昀.OCR系统前处理的研究[D].南开大学,2000.
[2]庞东虎,金伟杰.英文字符特征提取系统[J].计算机仿真,2007,24(12):208-210.
符号
符号说明
样本数
样本集
样本
第维的特征上的分散程度
在第维的特征上的半径
在第维的特征上的圆心
第维的特征上和中心距离
1
?
-全文完-
文档评论(0)