- 1、本文档共51页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
硬刷题汉字识别技术的研究毕业论文
目 录
摘要 i
ABSTRACT. i
目录 iii
1 绪论 1
1.1 印刷体汉字识别技术的研究意义 1
1.2 印刷体汉字识别技术的研究状况 1
1.3 印刷体汉字识别技术存在的难点 2
2 印刷体汉字识别的概述 4
2.1 印刷体汉字识别的原理简介 4
2.2 印刷体汉字识别的流程简介 4
3 印刷体汉字识别技术的研究 6
3.1 预处理 6
3.2 汉字特征提取 8
3.3 汉字识别算法分类 9
3.4 后处理 11
3.5 印刷体汉字识别方法分析 12
3.5.1 结构模式识别方法 12
3.5.2 统计模式识别方法 12
3.5.3 人工神经网络 14
3.5.4 BP神经网络 15
3.5.5 支持向量机 17
3.6 本章小结 18
4 系统的Matlab仿真 19
4.1 系统的分析 19
4.2 系统的实现 20
4.2.1 特征提取 20
4.2.2 BP神经网络的建立 21
4.2.3 BP神经网络的训练 21
4.2.4 系统的仿真 23
4.2.5 系统性能的进一步验证 27
4.2.6 仿真结果分析 31
4.3 本章小结 32
5 未来展望与全文总结 33
5.1 未来展望 33
5.2 全文总结 33
参考文献 35
致谢 36
参考附录 37
参考附录1 37
参考附录2 48
1 绪论
1.1 印刷体汉字识别技术的研究意义
汉字已有数千年的历史,是中华民族文化的重要结晶,闪烁着中华人民智慧的光芒。同时也是世界上使用人数最多和数量最多的文字之一。在跨入信息时代后,现如今汉字印刷材料的数量大大增加,一些专业单位如新闻社、图书馆、古籍出版社、档案馆等所接触的印刷材料更是浩如烟海,信息量均是呈爆炸性增长,毕竟阅读印刷材料更为符合人的自然阅读习惯。然而,随着人们对电子化信息需求的日益增加,如何将汉字快速高效地输入计算机,是信息处理的一个关键问题,也是关系到计算机技术能否在我国真正普及的重要前提,更是能否传播与弘扬中华民族悠久历史文化的关键因素。传统的人工键入不仅速度慢而且劳动强度大,即使是专业的打字员每分钟也只能输入100-120个汉字。这种方法不适用于需要处理大量文字资料的办公自动化、文档管理、图书情报管理等场合。而且随着劳动力价格的升高,利用人工方法进行汉字输入也将面临经济效益的挑战。人们要求有一种能将文字信息高速、自动输入计算机的方法,于是印刷体汉字识别技术便应运而生。这种快速,准确的自动处理方式将在很大程度上推动我国信息化的发展进程,对社会各方面的工作都有着相当深远的意义。目前印刷体汉字识别技术已经呈现出了广泛的应用前景,它主要应用在中文信息处理、办公室自动化、机器翻译、人工智能等高技术领域。
汉字识别是模式识别的重要应用领域,也是光学字符识别OCR(Optical Character Recognition)[1]。此外,日本的三洋、松下、理光和富士等公司也有其研制的印刷汉字识别系统,但因这些系统价格极其昂贵,没有得到广泛应用。直到80年代中期以来,以软件为主并使用通用高档微机的产品才逐步走向市场。
同国外相比,我国的印刷体汉字识别研究起步较晚[2]。我国在20世纪70年代才开始对数字、英文字母及符号的识别技术进行研究,20世纪70年代末仅有少数大学和研究所开始进行汉字识别的研究并发表了一些论文,研制了少量模拟识别软件或系统。但由于我国政府从80年代中期开始对汉字自动识别输人的研究给予了充分的重视和支持,汉字识别技术进入了研究的高潮。经过科研人员这些年的辛勤努力,印刷体汉字识别技术的发展和应用有了长足进步,从简单的单体识别发展到多种字体混排的多体识别,从中文印刷材料的识别发展到中英文混排印刷材料的双语识别。各个系统可以支持简、繁体汉字的识别,解决了多体多字号混排文本的识别问题,对于简单的版面可以进行有效的定量分析,同时汉字识别率已达到了98%以上。进入90年代以来,印刷体汉字识别研究的主要目的是提高识别系统的品质和效率,增强系统对不同文本的适应性,扩大使用面。在加强版面分析、识别结果上下文匹配后处理和各种实用化技术的研制的同时,进行对识别方法的进一步研究,促使更实用的产品广泛出现。
1.3 印刷体汉字识别技术存在的难点
由于汉字具有以下几个方面的特点,使汉字字符在识别难度上远远大于字母化字符的识别。
(1)类别较大
目前我国常用汉字约3000~4000个。国标GB2312一80常用汉字字符集中共有,6763个常用字,分为两级。第一级3,755个汉字,使用频度为99.7%,第二级有3,008个汉字,两级汉字总使用频度为99.99%,识别系统一般应能正确识别这些常用
文档评论(0)