- 1、本文档共21页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
一种基于内容的广告垃圾图
像过滤方法
•一种基于内容的广告垃圾图像过滤方法
目录
n论题意义及其必要性
n过滤原理与实现方法
n实验和结果分析
论题意义及其必要性
n垃圾邮件问题日益严重:
2005年7月,中国互联网络信息中心(CNNIC)发布的《第十六次中国互联网发展
状况统计报告》显示,中国网民平均每周收到14.5封电子邮件,其中垃圾邮件占了9.3
封,垃圾邮件数量已经大大超过了正常邮件数量。
n基于文本过滤方法的局限性:
第一、基于文本的过滤受到文本语言种类的限制;
第二、垃圾邮件发送者(spamer)经常使用各种各样的骗术来迷惑基于文本的垃圾
邮件过滤器,比如将文字页面转换为图像;有数据显示,包含图像的垃圾邮件占所有
垃圾邮件的25%。可见,这种欺骗手段已经被垃圾邮件制作者们频繁利用,如果没有找
到可行的解决办法,这个数字还会上升。
第三、随着因特网的范围和容量不断增长,邮件包含越来越多的多媒体信息。
一些广告垃圾图片的示例
目录
n论题意义及其必要性
n过滤原理与实现方法
n实验和结果分析
过滤的原理
任何广告都需要用文字来传播某种信息。也就是说,广告垃圾图像的文
字区域特征具有普遍性。本文正是利用广告垃圾图像的文字区域特征来进行
广告垃圾图像过滤。
基本步骤:
1.提取图像的边缘信息,并把边缘信息做二值化处理;
2.将二值化边缘图像进行膨胀处理,使相邻的字符连通起来,并把膨胀处理后
的所有连通区域作为候选文字区域记录下来;
3.利用文字区域的特征从候选文字区域中筛选出正确的文字区域;
4.根据得到的文字区域的数量和面积等特征对图像进行分类,把广告垃圾图
像和合法图像区分开来。
彩色边缘提取
由于广告图像中的文本与背景有较强的对比度,表现为在文本与背景的
交界处,存在十分明显的高频区域,因此可以用提取边缘的方法来大致估计
出文本可能存在的区域。
由于广告垃圾图像大多为彩色图像,所以本文采用张引等提出的彩色图
像边缘提取算子来提取边缘,利用彩色三分量的彩色边缘提取算法,充分利
用了全面的色彩信息,效果优于传统的灰度边缘提取算法。
边缘提取的具体做法如下:
已知输入图像f的RGB值,其中象素(i,j)的RGB分量分别为R(i,j),
G(i,j),B(i,j)。要计算图像f的边缘图像Edge。
Eud(i1,j1;i2,j2)定义为像素点(i1,j1)与(i2,j2)之间的彩色值欧氏距
离。
原图与边缘图像
(a)原图(b)边缘图像
边缘图像二值化
阈值选取方法:
首先计算边缘图像Edge的归一化灰度直方图h(i):
其中,ni是图像Edge中灰度值为i的象素的个数,N是图像象素总数。
因为文字区域边缘十分明显,所以本文认为文字区域边缘的灰度级一般比较
高。于是需要找到一个灰度级k作为阈值,把灰度大于k的边缘象素点保留,
灰度小于k的边缘象素点忽略。
令;
eh(k)表示保留的边缘象素数占图像总象素数的比例;找到一个尽可能大的
灰度级k使得eh(k)大于阈值TH1;如果此时k小于下限TH2,则把TH2作为二
值化的阈值,否则把k作为二值化的阈值。在实验中,我们取TH1=0.2,
TH2=120(认为文字区域边缘的灰度级不应低于120)。
二值化边缘图像
(c)二值化边缘图像
候选文本区域提取
从二值边缘图像中可以看出,由于文字的分布比较集中,所以文字附近的边缘比较
丰富,而且属于同一文字区域的文字边缘具有较小的距离。对于水平方向的文本行来
说,可以用水平膨胀的方法将相邻的边缘连起来,形成连通的区域,从而在空间位置
上将可能含有文本的区域检测出来。
膨胀方法:
设f为二值图像,B为结构元素,二值形态和(膨胀)定义如下:
其中表示以(x,y)为原点,形状与结构元素B相同的区域。膨胀运算具有
扩大图像的作用,膨胀可以看作是将图像f中的每一个点(
文档评论(0)