彩色图像中文本提取的算法研究.docVIP

下载本文档

1
0
约1.94万字
约 37页
2018-01-24 发布于河北
举报
版权申诉

彩色图像中文本提取的算法研究.doc

1、本文档共37页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

彩色图像中文本提取的算法研究

1 绪论随着互联网和多媒体技术的快速发展，世界进入了一个崭新的信息化时代。以图像、动画、视频为主要元素的各种多媒体信息构成了信息传播的主力。最近几年以来随着既有拍照功能的便携式电子设备，比如智能手机，平板电脑等，随着技术的不断更新升级，人们急需一种方便的应用程序来提取处理图像中内嵌的文本信息。这都使得彩色图像下的文本的提取成为一个很有意义的研究课题。彩色图像中的文本提取即为彩色图像中文本定位，是很困难的问题。由于其广泛的应用领域越来越受到人们的重视。因此，将图像中的文本提取出来将便于不停国家，不同文化之间的交流。 1.1研究意义和背景随着计算机技术、多媒体技术和通讯技术的发展，以图像、声音和视频为主的多媒体信息的应用越来越广泛，图像中的文本信息对检索和浏览有十分重要的意义。在彩色图像中，文本信息包含了丰富的高层语义信息[]。文本可以作为图像的内容标识和索引，是图像内容重要程度的判断依据，例如出现醒目文字的帧，可以抽取出来作为对应的图像的代表帧。如果这些文字信息能自动准确的被检测、分割、识别出来，则对图像高层语义的自动理解、索引和检索是非常有价值的。人们对中文字进行了广泛的研究，并已有许多成熟的技术应用在各个领域，如交通管理中的汽车牌照识别和港口货物管理的集装箱编码识别等。但自然场景中的文本分割依然面临着许多复杂的问题主要原因是：(1)文字和其他自然景物混杂在一起，如树、窗户和房屋建筑等，背景复杂(2)文字的颜色多种多样；(3)文字的字体和大小复杂多变；(4)光照的变化等。因此从自然场景图像中提取文本是一项极具挑战性的工作。目前已有的文本区域提取方法大致可以分为四类基于边缘的方法基于纹理的方法基于连通域的方法基于学习的方。 1.2课题发展现状针对图像、视频文本检测和提取的研究，主要有以下算法： Rainer Lienhart[]利用文字颜色的单一性、文本区域的大小约束、同一文本会在连续几个视频帧出现等特点，对文本进行检测和定位。首先对视频帧使用分裂—合并算法，将视频帧分解成颜色一致的连通元（connected component）。然后通过匹配算法，对连通元进行多帧跟踪，去除那些没有连续多帧出现的连通元。最后通过对比度的分析，形状分析等去除非文本的连通元。该算法要对每一个视频帧进行分裂合并算法，而且视频中生成的连通元绝大部分都不会是文本，因此算法复杂度太高，系统效率低。 Boon -Lock Yeo[]提出利用场景变化来检测视频文本的出现和消失。算法对相邻两个视频帧取差值，在差值图像中寻找高亮区域。这种算法只能提取高亮的视频字幕，而不能提取非高亮度的字幕，而且也会受到较亮的物体的干扰。 Byung[]提出用字符的拓扑结构特征来提取字符文本区域，然后对视频字幕区域进行复原。该算法是基于单个视频帧图像的字幕提取，效果并不明显。 Marco Bertin]利用角点特征来进行的视频字幕检测。这种算法实质上类似于基于灰度边缘的算法等。王辰等[]等通过灰度边缘检测来定位文本区域。首先提取视频帧的灰度边缘，然后合并相邻的边缘，生成候选文本区域，最后用一些启发式规则来去除虚假的文本区域。该算法不能提取灰度值和背景接近的文本。王勇等[]提出一种基于边缘点密度的视频字幕自适应检测算法。采用基于边缘检测的方法，结合文字图像区域本身的特点，在对原图像进行边缘检测和形态学膨胀后，对其在水平和垂直方向的边缘密度投影采用一种自适应的检测算法，从而检测得到字幕图像区域。该算法的优点是可以检测出各种字体大小的文本行。但是算法不能提取灰度值和背景接近的文本。郭丽等[]提出一种基于颜色边缘点和游程平滑的视频文本提取算法。黄晓东等[15]综合应用小波变换和颜色聚类技术来提取视频帧中的字幕区域。首先，通过小波变换计算视频中的局部能力特征，能量高的区域作为候选字幕区域。然后利用字幕颜色一致的特征，进行邻域颜色聚类算法，从背景中分离出字幕。最后利用字幕属性特征消除噪声。但是该算法容易受到颜色一致的物体的干扰。处理图像的时间较长 1.3本文主要研究方向课题的主要目标就是在彩色图像下提取文本信息，二值化分OCR软件识别并被转化成为机器内码，结合自然语言处理，文本检索，文本翻译，对图像中文字的提取首先确定包含文字的图像区域，滤除非文本背景的干扰，把彩色图像中的文本区域定位出来，这是文字提取工作中最难、最关键的环节，确定包含文字图像的区域后，利用文本特征制定启发式规则，滤除非文本区域，得到二值化文本字符，为了方便后面的文字抽取，在字符抽取前进行一次文字区域图像质量的改善也很有必要，对文字提取后，最终采用OCR技术对字符进行识别。 1.4本文主要内容与安排论文从课题出发，第一章绪论中阐述了彩色图像中文本信息提取的四种方式，然后比较对于不同场景和复杂背