- 1、本文档共6页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
PAGE 1
******大学
本科毕业设计(论文)开题报告
论文题目:基于OCR的名片识别技术研究
学 院: *********学院
专 业: ********工程
年 级: 201*级
班 级: ****
学 号: *****
姓 名: ******
指导教师: ***
本科毕业设计(论文)开题报告
专业: ****** 班级:*****
学号
姓名
指导教师
报 告 题 目
基于OCR的名片识别技术研究
题目来源(划√)
科研√
生产□
实验室□
专题研究□
企业联合□
论文类型(划√)
工程设计类□
实验研究类√
软件开发类
其 他 □
报 告 日 期
2015年 月 日
报告地点:
一、选题目的与背景
名片已经成为一种简单且美观的信息载体,扮演着重要的角色,日常生活和商务活动中,它具有介绍、沟通、留存纪念等多种功能,是当代人际交往中不可缺少的名字的派生物。
当下手机、掌上电脑笔记本、电子记事簿以及 PC 机都能够完成对于名片的管理,但是经过手动方式输入大量的名片不仅仅是浪费时间,同时也浪费人的体力,除此之外也不能保证信息的正确性和完备性,这就会使得日常生活中经常用到的设备,如手机、掌上电脑及电子记事簿等对名片信息的管理和使用大减折扣。于是急需开发出一种高识别度、易于操作和管理的名片识别系统,使终端设备能够自动将名片中的内容进行保存,便于人们使用[6,7]。
基于 OCR 技术的名片识别方法可解决上述问题,其优点是识别准确率高、复杂低和速度快,适用于各种版式的名片。所谓的 OCR 技术指的是光学文字识别,它是 Optical Character Recognition 的简称,是利用扫描把所有书籍、文稿及材料进行扫描,再对图片文稿做一下研究分析,取得字符和版面上信息的一个过程[3,4]。因此,采用 OCR 技术进行名片识别,并解决已有名片识别方法中存在的问题,具有非常重要的实际意义。
二、国内外研究现状
汉王公司于 1999 年推出了第一个中文名片识别与管理系统,历经 9 年的发展,功能越来越强大,识别技术水平不断提高,成为继 PDA、手机后又一个个人资源管理必备工具,目前在国内市场上销售的中文名片识别系统有北京汉王科技有限公司的汉王名片通、台湾蒙恬公司的蒙恬名片王、清华紫光公司的紫光名片大师、新加坡维优公司的维优名片管家等。“汉王名片通”的研发起步最早,识别率最高,从 1999 年开始已开发出 10 几个版本,占中国大陆中文名片识别市场份额的 90%以上[4]。
目前,有一些文献讨论名片的识别方法,文献[8]提出了一种多阶段识别方法,采用两种不同类型的神经网络识别中文名片;文献[9]构造了一个完整的中文名片识别系统,但只能处理纯横排或纯竖排的名片,而且假设已知待识别的字体;文献[10]采用模板匹配的方法分析名片版面,因此只能处理固定版面的名片。这些文献没有考虑构造实际系统可能会遇到的困难,比如:名片版面复杂,文字行横竖混排;行内文字排版方向不同;字符粘连;字体、字号变化频繁;汉英双语混排;简繁混排。由于名片识别系统的关键在于字符识别与版面分析上,所以在此重点介绍版面分析与字符识别的研究现状。
版面分析技术,己有四十多年的历史,八十年代早期,版面分析技术的初期研究大多集中于对布局结构较简单的文本文档页面进行分割,到九十年代初,对文档内部对象进行逻辑标识的研究开始逐步展开。目前,版面分析技术的研究已发展到针对各个不同领域的文档采用不同的技术,多角度地科学研究,并解决实际问题[2]。
字符识别的研究,早在 1929 年,Taushek 就在德国获得了一项有关 OCR 的专利。据记载,印刷体汉字的识别最早可以追溯到 60 年代[5]。1966 年,IBM 公司的 Casey 和 Nagy 发表了第一篇关于印刷体汉字识别的论文,在这篇论文中他们利用简单的模板匹配法识别了 1,000 个印刷体汉字。70 年代以来,日本学者做了许多工作,其中有代表性的系统有 1977 年东芝综合研究所研制的可以识别 2000 个汉字的单体印刷汉字识别系统;80 年代初期,日本武藏野电气研究所研制的可以识别 2300 个多体汉字的印刷体汉字识别系统,代表了当时汉字识别的最高水平。此外,日本的二洋、松下、理光和富士等公司也有其研制的印刷汉字识别系统。 我国在 OCR 技术方面的研究起步较晚,在 70 年代才开始对数字、英文字母及符号的识别进行研究,70 年代末开始进行汉字识别的研究,到 1986 年汉
文档评论(0)