深度学习算法_详解_实例(自然场景文字定位).pdf

深度学习算法_详解_实例(自然场景文字定位).pdf

  1. 1、本文档共58页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
深度学习算法_详解_实例(自然场景文字定位)

目录 第一章 绪论1 1.1. 研究背景和意义 1 1.2. 自然场景文字定位技术研究现状2 1.2.1. 基于滑动窗口的定位技术2 1.2.2. 基于连通域的定位技术3 1.2.3. 混合的定位技术3 1.3. 自然场景文字定位的难点4 1.4. 本文的主要工作 5 1.5. 本文的组织结构6 第二章 深度学习技术简介7 2.1. 特性与发展历史 7 2.2. 卷积神经网络8 2.2.1. 局部感受野9 2.2.2. 权值共享10 2.2.3. 子采 11 2.3. 卷积神经网络的结构12 2.3.1. 卷积层13 2.3.2. 池化层14 2.3.3. 全连接层15 2.4. 卷积神经网络的训练16 2.4.1. 梯度下降17 2.4.2. 反向传播18 2.5. 本章小结20 第三章 基于深度学习的自然场景文字定位方法的设 20 3.1. 自然场景文字定位方法的需求分析21 3.1.1. 功能性需求21 3.1.2. 非功能性需求21 3.1.3. 接口需求22 3.2. 设计目标22 3.3. 设计思想与依据23 3.3.1. MSER与深度特征23 3.3.2. 连体字符处理23 3.3.3. 多通道检测24 3.4. 自然场景文字定位方法的总体框架24 3.5. 本章小结25 第四章 基于深度学习的自然场景文字定位关键算法的实现25 4.1. 颜色空间变换26 4.2. MSER 算法定位27 4.2.1. ER树构建27 4.2.2. 子路径分割和裁剪28 4.2.3. 正则化30 4.3. 字符检测31 4.3.1. 数据准备31 4.3.2. 人工合成33 4.3.3. 模型架构34 4.4. 区域整合35 4.4.1. 组合方法35 4.4.2. 切分方法36 4.5. 文本检测37 4.5.1. 数据准备38 4.5.2. 检测过程38 4.6. 本章小结38 第五章 实验结果及讨论38 5.1. 实验数据39 5.2. 实验环境41 5.3. 实验结果与分析41 5.3.1. ICDAR2015结果41 5.3.2. 处理不好的情况46 5.4. 实验代码47 5.4.1. MSER算法47 5.4.2. CNN识别48 5.4.3. 合并与分割49 5.5. 本章小结51 第六章 总结与展望51 6.1. 本文总结52 6.2. 下一步工作52 参考文献54 第一章 绪论 1.1.研究背景和意义 随着网络带宽与计算机性能的提升,图像越来越多地出现在各类应用中,如网络上 流行的图片有哪些信誉好的足球投注网站和视频分享,移动终端的美白相机,交通行业的违章车辆抓拍,以及最 近兴起的机器人行业中的智能视觉等。图像中包括各种不同类型的物体,如人、动物、 建筑等。其中,文字作为自然场景图像中的一个重要兴趣点,往往蕴含着场景的关键潜 在信息,可以进一步用于场景理解、商品推荐、自动导航与驾驶等。因此,对自然场景 图像中的文字定位进行深入研究具有重要的理论意义和实用价值。 研究自然场景图像中的文字主要有以下作用。首先,文字作为人类创造的符号,往 往包含丰富的抽象信息。相比自然场景中的其他内容,如物体或者人等信息,文字往往 包含着一些关键的信息,例如交通指示牌中的位置,以及行驶的汽车的牌照等。这些信 息,无法通过物体识别技术得出,只能通过提取文字分析。其次,文字相比其他信息, 具有形状描述相对固定的特征。与一些具有复杂形状或者多种姿态的物体比较,文字往

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档