C版各类型的验证码识别分析.doc

下载文档 降价啦

3
0
约1.44万字
约 9页
2017-12-25 发布于重庆
举报
版权申诉
保障服务

C版各类型的验证码识别分析.doc

1、本文档共9页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

C版各类型的验证码识别分析

验证码识别技术识别验证码的各种类型识别验证码的各种类型识别验证码的各种类型识别验证码的各种类型识别验证码的各种类型识别验证码的各种类型识别验证码的各种类型一、验证码的基本知识 1. 验证码的主要目的是强制人机交互来抵御机器自动化攻击的。 2. 大部分的验证码设计者并不得要领，不了解图像处理，机器视觉，模式识别，人工智能的基本概念。 3. 利用验证码，可以发财，当然要犯罪：比如招商银行密码只有6位，验证码形同虚设，计算机很快就能破解一个有钱的账户，很多帐户是可以网上交易的。 4. 也有设计的比较好的，比如Yahoo,Google,Microsoft等。而国内Tencent的中文验证码虽然难，但算不上好。二、人工智能，模式识别，机器视觉，图像处理的基本知识 1)主要流程：比如我们要从一副图片中，识别出验证码;比如我们要从一副图片中，检测并识别出一张人脸。大概有哪些步骤呢? 1.图像采集：验证码呢，就直接通过HTTP抓HTML，然后分析出图片的url，然后下载保存就可以了。如果是人脸检测识别，一般要通过视屏采集设备，采集回来，通过A/D转操作，存为数字图片或者视频频。 2.预处理：检测是正确的图像格式，转换到合适的格式，压缩，剪切出ROI，去除噪音，灰度化，转换色彩空间这些。 3.检测：车牌检测识别系统要先找到车牌的大概位置，人脸检测系统要找出图片中所有第 1 页共 8 页验证码识别技术的人脸(包括疑似人脸);验证码识别呢，主要是找出文字所在的主要区域。 4.前处理：人脸检测和识别，会对人脸在识别前作一些校正，比如面内面外的旋转，扭曲等。我这里的验证码识别，“一般”要做文字的切割 5.训练：通过各种模式识别，机器学习算法，来挑选和训练合适数量的训练集。不是训练的样本越多越好。过学习，泛化能力差的问题可能在这里出现。这一步不是必须的，有些识别算法是不需要训练的。 6.识别：输入待识别的处理后的图片，转换成分类器需要的输入格式，然后通过输出的类和置信度，来判断大概可能是哪个字母。识别本质上就是分类。 2)关键概念：图像处理：一般指针对数字图像的某种数学处理。比如投影，钝化，锐化，细化，边缘检测，二值化，压缩，各种数据变换等等。 1.二值化：一般图片都是彩色的，按照逼真程度，可能很多级别。为了降低计算复杂度，方便后续的处理，如果在不损失关键信息的情况下，能将图片处理成黑白两种颜色，那就最好不过了。 2.细化：找出图像的骨架，图像线条可能是很宽的，通过细化将宽度将为1，某些地方可能大于1。不同的细化算法，可能有不同的差异，比如是否更靠近线条中间，比如是否保持联通行等。 3.边缘检测：主要是理解边缘的概念。边缘实际上是图像中图像像素属性变化剧烈的地方。可能通过一个固定的门限值来判断，也可能是自适应的。门限可能是图像全局的，也可能是局部的。不能说那个就一定好，不过大部分时候，自适应的局部的门限可能要好点。被分析的，可能是颜色，也可能是灰度图像的灰度。机器视觉：利用计算机来模式实现人的视觉。比如物体检测，定位，识别。按照对图像理解的层次的差别，分高阶和低阶的理解。模式识别：对事物或者现象的某种表示方式(数值，文字，我们这里主要想说的是数值)，通过一些处理和分析，来描述，归类，理解，解释这些事物，现象及其某种抽象。人工智能：这种概念比较宽，上面这些都属于人工智能这个大的方向。简单点不要过分学院派的理解就是，把人类的很“智能”的东西给模拟出来协助生物的人来处理问题，特别是在计算机里面。三、常见的验证码的破解分析以/wiki/PWNtcha这里PWNtcha项目中的资料为例分析，各种验证码的破解。(方法很多，仅仅从我个人乍看之下觉得可行的方法来分析) 1)Authimage 第 2 页共 8 页验证码识别技术使用的反破解技巧： 1.不连续的点组成字符 2.有一定程度的倾斜设计不好的地方： 1.通过纵横的直方图投影，可以找到字幕区域 2.通过Hough变换，适当的参数，可以找到近似的横线，可以做倾斜矫正 3.字符串的倾斜式面内的，没有太多的破解难度 4.字母宽度一定，大小一定 2)Clubic 使用的反破解技巧： 1.字符是手写体设计不好的地方： 1.检测切割阶段没有任何技术含量，属于设计的比较丑的 2.只有数字，而且手写体变化不大 3.表面看起来对识别阶段有难度，仔细分析，发现几乎不用任何高级的训练识别算法，就固定的招某些像素点是否有色彩就够了 3) 使用的反破解技巧： 1.背景颜色块 2.前景的横线或矩形设计不好的地方： 1.背景色是单一色块，有形状，通过Region-Growth区域增长来很