- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
系毕业设计(论文)开题报告
学生
姓名 指导教师 职称 专业 班级 2007级班 毕业设计(论文)题目 脱机手写体汉字分割方法的研究 题目
来源 自拟 是否校
外题目 公司名称(地址) 校外指导教师姓名(职称) 包括选题依据、毕业设计(论文)所做工作的主要内容、可行性、所采用的技术手段、技术路线、预期成果等。开题报告应简明扼要,不超过2000字,以附页的形式附在后面。
指导教师意见
签字
年 月 日 教研室主任意见
签字
年 月 日 系毕业(设计)论文指导委员会意见
主任签字
年 月 日
大连民族学院教务处制
脱机手写体汉字分割方法的研究
一 、本研究课题的目的及意义;
汉字识别,是一种利用一定的光电设备(如:光学扫描仪、数码相机、数码摄像机等)将记录在介质(如:纸等)上的汉字转化成图像输入到计算机中并对其进行自动识别,是智能计算机接口的一个重要组成部分,也是汉字高速、自动输入计算机的重要手段。脱机手写体汉字识别,是指通过扫描等技术以及自动认字的方法,将书写在纸或者其它介质上的汉字方便、快速地输入计算机,它包括:特定人非限定性脱机手写体汉字识别、非特定人限定性脱机手写体汉字识别和非特定人随意性脱机手写体汉字识别三种。
二、脱机手写体汉字识别的一般方法及主要特点:
一个典型的脱机手写体汉字识别系统由前端数字化输入装置、预处理系统、识别系统和后处理系统四大部分组成。
进行脱机手写体汉字识别时,首先用输入装置将写在介质上的原始文本通过光电扫描仪等输入设备转换成二维图像信号(可以是灰度图像或二值图像):然后进行行、字切分,将整页版面的原始图像先按书写行分割开后从每行中切分出单个汉字图像,送入单字识别部分进行处理。单字识别依次包括预处理、特征提取、匹配识别。其中,预处理通常有大小归一化、二值化、平滑、细化等:特征提取是从预处理后的图像中按一定的方式获取代表汉字特征的一组向量;最后,将汉字特征向量与模板特征向量按一定的原则进行匹配判决,以此确定待识汉字的类别。单字识别完成后对识别结果进行后处理,即对单字识别的结果利用语言知识等上下文先验信息进行确认或纠错。
其中,特征提取是整个系统中最为重要的环节,稳定的、具有代表性的特征提取和良好性能的分类器的设计是整个识别系统的核心,直接决定了识别系统的性能。而相似字识别的正确与否对整个识别系统的准确性和可用性都有着极大的影响,相似字的准确分类是汉字识别中提高识别率的一个关键问题。
另一方面,脱机手写体汉字识别在具有广阔应用前景的同时,也有着与印刷体汉字识别明显不同的特点,概括起来主要有如下几点:
(1) 手写体汉字风格众多,随意性较大,几乎无规律可循。特别是对于脱机手写体汉字,不同的书写风格导致的汉字的变形差别很大,即使是同一个人使用不同的书写笔或纸张等写出来的笔划也可能不一样。具体表现在:
1) 基本笔划变化,包括横不平、竖不直、直笔变弯、折笔的拐角变成圆弧等;
2) 笔划模糊,不规范,连笔部分断开了,不是连笔的地方却相连;
3) 笔划与笔划之间的相对位置发生了变化;
4) 笔划的倾斜角、笔划的长短、相对大小等发生变化。
(2) 汉字集会中相似字较多,很多汉字的差别仅为一点或一个笔划,例如“大、犬、太”、“入、入”、“±、士”、“乌、鸟”、“己、已、已”等,并且由于手写变形的问题较普遍,所以手写体中相似字的区分比印刷体要困难得多。
(3) 汉字字形结构复杂,笔划最多的汉字有36划,汉字的平均笔划则为11划。由于笔划多,使得较多汉字的结构十分复杂。特别是由于不同的人有不同的书写习惯,导致复杂的汉字结构难于识别。
同时,脱机平写体汉字识别处理的仅是一些经过各种光电仪器扫描得到的二维汉字点阵图像,不含任何实时信息。这是脱机手写体汉字的本质特征之一,也是脱机手写体汉字识别与联机手写体汉字识别的本质区别之一。
三 、本课题的主要要求与内容:
汉字字库收集
汉字文档数字化处理
汉字文档去噪
汉字文档倾斜校正
文档行分割
汉字分割算法初步
汉字分割算法优化
确定最终分割结果
汉字单独字符提取
单独汉字图像归一化
汉字分割法软件功能实现
撰写设计说明书
四、本题目相关设计原理、理论方法:
脱机手写体汉字识别的基本过程如下:书写在纸张上的手写体文稿通过前端数字化输入装置(如扫描仪)转化为一个二维点阵图像,由预处理阶段对所得图像作相应处理,识别阶段首先提取汉字图像的特征,然后根据特征对待识别汉字进行分类判别,后处理阶段利用相关信息和语言知识,对识别的文字进行校正或对拒识文字进行推测,以得到最终的识别结果。
1.统计决策方法
一般来说,可以从输入的文字中,测得N个特
您可能关注的文档
- 简易电子琴单片机课程设计.doc
- 简易示波器课程设计报告.doc
- 简易自动电阻测试仪设计周记.doc
- 简易自动油烟机控制系统毕业设计.doc
- 胶带输送机减速器课程设计.doc
- 节流变压降流量计课程设计.doc
- 结构设计原理课程设计---钢筋混凝土单向肋梁楼盖设计书.doc
- 结合支持向量机的特征选择方法在信用评估中的应用外文翻译.doc
- 结构设计专业毕业设计计算书.doc
- 经典离别赠言.doc
- 浙江省临海市白云高级中学2025届高三历史3月月考试题.doc
- 云南拾谷县第一中学2024_2025学年高二物理上学期10月月考试题.doc
- 2025版高考生物总复习第13讲基因的分离定律教案苏教版.doc
- 湖北省黄石实验高中2024_2025学年高一历史下学期期末考试模拟卷.doc
- 通史版2025版高考历史大一轮复习专题七近代化的曲折发展__中日甲午战争至五四运动前4第4讲从维新思想到新文化运动课后达标检测含解析新人教版.doc
- 2024年高考数学考试大纲解读专题04导数及其应用含解析文.doc
- 河南省许汝平九校联盟2024_2025学年高一语文上学期期末考试试题扫描版无答案.doc
- 江西省吉安市吉水县第二中学2024_2025学年高一历史上学期第二次月考试题.doc
- 北京市平谷区2025届高三政治一模考试试题含解析.doc
- 2025届中考物理第四讲物态变化专项复习测试无答案新人教版.docx
文档评论(0)