- 1、本文档共7页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一种表的格框线检测和字线分离算法
第24卷 第9期 电子 与 信 息 学 报 Vo1.24No.9
2002年 9月 JOURNALOFELECTRoNICSAND INFORMATION TECHNoLoGY Sept.2002
一 种表格框线检测和字线分离算法
刘长松 潘世 言 郑冶枫 丁晓青
(清华大学电子工程系智能技术与系统国家重点实验室 北京 100084)
摘 要 该文提出了一种基于有向单连通链的表格框线检测算法,能够合理地利用单连通链边沿的全局统
计特性和单连通链之间的局部位置关系,精确地提取表格框线,具有抗倾斜,抗断裂,抗字线交叠等优点.
在此基础上。提出了一种能够分离交叠字线的表格框线去除算法。并成功应用于实际的表格识别系统中.
关键词 表格识别,图像分析,直线检测,字符识别
中图号 TP391
l引 言
表格作为一种高度结构化的特殊文档,被广泛地应用在 国民经济和 日常生活的各个方面 。
表格的计算机 自动识别是文档智能处理领域 的一个重要组成部分 LlJ。
表格 图像与一般的文本 图像最大的区别是 以表格框线作为分割表格单元的主要依据。因此,
对表格框线 的正确提取是划分表格单元的基础 ,是表格识别最关键 的环节之一 。
提取框线实际上是一个直线检测的问题 。直线检测算法较为成熟的理论是Hough变换 【引,
以及 围绕此理论衍生出的众多的快速算法 。但它在具体 的工程实践 中的应用却受到以下几个不
利因素的限制: (1)运算量大; (2)只适合于检测直线而得不到端点; (3)判决门限难以确定。
不可能找到一个适用于所有 图像的统一 门限,而对不同的应用选取各 自合理的门限又是一个相
当棘手 的 自适应 问题 。
如果假设表格线都在水平或垂直方 向附近,可 以通过缩小角度有哪些信誉好的足球投注网站范围来减少运算量,但
以牺牲斜线检测为代价,另外,它也并未解决 Hough变换的上述 (2)、 (3)的限制。而且在检
测某些长度较短但对表格域分割起重要作用的表格竖线时很容易被文字信息淹没而造成漏检。
其它有代表性的表格框线检测算法还有连通域分析法 L4J和交叉点特征法 [5-7J等。这些方
法在满足各 自的约束条件下能够取得好的效果,但对表格线断裂、倾斜等情况难 以适应 。
我们构造 了一种称为有向单连通链 (DSCC,DirectionalSingle—ConnectedChain)的图像结
构作为线检测的基元,它具有定义简单,物理意义明确,易于存储和处理等优点。在一定约束
条件下合并有 向单连通链,我们可 以快速准确地提取直线。Hough变换注重全局信息而没有利
用局部信息,这种算法能够合理利用局部和全局的图像信息,具有抗倾斜,抗断裂,抗字线交
叠等特点.
为了消除表格框线对表格域字符分割和识别的影响,在识别前必须将检测到的框线从表格
图像 中去掉。如果待识字符笔画与框线交叠,还必须采用特殊的办法将二者分离,并保证交叠
处的字符笔画形状不产生过大的畸变 .本文提出基于 DSCC算法字线分离方法 。
2有 向单连通链 的定义
对应于横线和竖线 ,有 向单连通链分为横 向单连通链和纵 向单连通链两种 ,分别用于检测
横线 (包括倾斜角小于45。的斜线)和竖线 (包括倾斜角大于45。的斜线)。以横向单连通链 (C )
为例: 为图像游程序列 {RlR2…R ),序列中每一个游程项 昆 都是横向宽度为一个像
2000.10.08收到, 2001—06.14定稿
国家 863计划及 国家 自然科学基金资助
9期 刘长松等:一种表格框线检测和字线分离箅法 1191
素,纵向由连续的黑像素段形成的游程 (如图1),记为:R (Xi,ysi,yei)={(,Y)l (,Y)=1,
= , Y∈y【s,ye 且p(xi,ys一1):p(xi,ye+1):0)。其中p(,Y)代表坐标 (,Y)处的像
素值, 1代表黑 (前景)像素点,0代表白 (背景)像素点;Xi,ysi和 yei分别表示游
文档评论(0)