《计算机视觉应用开发》项目12基于CRNN的商品信息图片文字识别.docx

《计算机视觉应用开发》项目12基于CRNN的商品信息图片文字识别.docx

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

《计算机应用开发》教案

授课题目

基于CRNN的商品信息图片文字识别

授课类型

新授课

授课时长

12节课

教学内容

教学目标

知识目标

了解文字识别的基本过程

能力目标

能利用CRNN实现文字识别

情感目标

使学生了解文字识别的基本过程、优秀模型,树立职业理想。

教学重点

(1)文字识别的基本过程

(2)典型的深度学习文字识别算法——CRNN

教学难点

典型的深度学习文字识别算法——CRNN

教法学法

讲授法、讨论法

特色学习资源分析、技术手段应用说明

学习场所:实训室

教学资源:PPT

教学设备:电子白板

学情分析

同学们文字识别的基本过程和典型的深度学习文字识别算法——CRNN了解不深入。

板书设计

(教学结构图)

基于CRNN的商品信息图片文字识别

教学环节

(时间分配)

教学内容及教师活动

学生活动

设计意图及

实施效果

【情境导入】

【课堂新授】

【项目实操】

【课堂总结】

案例导入

当前,各类网络平台上不乏靠夸大其词促销者。2021年,某公司发布了“治疗癌症、增强人体抗病免疫功能、调节身体健康、提高人体免疫力、抑制肿瘤、抗衰老”等宣传内容,并在宣传海报栏中利用国家机关工作人员的名义和形象进行宣传。上述行为违反了《中华人民共和国广告法》第九条的规定,因此有关部门作出了行政处罚。虽然已有相关法律法规对广告进行管控,但是网络平台上依然存在着大量违规的广告图文,但是人工逐张进行审核工作量大,效率低。因此智能审核系统应运而生,其能够自动识别商品图片中的文字信息,根据识别结果判断是否包含敏感词,从而提示工作人员,及时采取有效措施,提升图片审核效率及准确性,针对违反广告法、虚假宣传、“三无产品”等行为进行专项整治。

任务描述

本次任务要求,从网上爬取照片(如图12-1),然后使用市面上已有的成熟模型,对我们爬取到的照片进行商品文字识别操作,并对识别到的文字进行敏感词语判断,最后对识别后的照片(如图12-2)以及存在敏感词语的图片进行保存。

处理前:

处理后:

三、知识准备

(1)文字识别的基本过程

1.文本检测定位

文本定位是指在图像中定位文本区域的操作。作为图像文本识别的第一步,文本检测与定位的准确性直接决定了最终的识别结果。一般来说,图像中文本的检测和定位方法可以分为如下四类:基于边缘特征的方法,基于纹理特征的方法,基于连通区域的方法,基于深度模型和机器学习的方法。

2.字符切分

利用字符切割算法获得精确的字符区域,是文本识别算法在将已定位图像转换成可由计算机处理字符串的前提。近年来,在针对文字识别的研究中,一直统一把文本分割和识别放在识别问题上进行处理。不过在实际操作过程中,字符内部的切割也是不容忽视的步骤。如果实验中发生字符切割和拼接错误并且部分字符区域丢失,例如,如果8”在切割过程中丢失一半,大多数识别算法都会将其识别为“3”。

3.字符识别

检测到文本、将其定位并分割后就到了识别阶段。一般来说,传统的字符识别方法主要包括以下四个独立的环节:数据预处理、特征提取、特征降维和分类模型设计。传统的研究方法中,提高分类系统整体性能的常用手段是对以上四个模块进行优化,但是由于上述模块互相独立,无法进行优势互补,而且手工设计和提取特征很容易丢失有用的信息。因此,近年来许多研究者在对字符图像进行分类时逐渐开始采用深度学习的方法。

(2)典型的深度学习文字识别算法——CRNN

主要用于端到端地对不定长的文本序列进行识别,不用先对单个文字进行切割,而是将文本识别转化为时序依赖的序列学习问题,就是基于图像的序列识别。

整个CRNN网络结构包含三部分,从下到上依次为:

CNN(卷积层),使用深度CNN,对输入图像提取特征,得到特征图;

RNN(循环层),使用双向RNN(BLSTM)对特征序列进行预测,对序列中的每个特征向量进行学习,并输出预测标签(真实值)分布;

CTCloss(转录层),使用CTC损失,把从循环层获取的一系列标签分布转换成最终的标签序列。

数据爬虫

(1)导入所需的库

(2)获取页面

(3)页面解析

(4)写入文件或者数据库

(5)爬虫调度

(6)编写主函数

处理数据

导入库

数据导入与预处理

结果展示:

教师检查学生的完成情况

三、文字识别

四、敏感词判断

(1)创建敏感词列表

(2)筛选出存在敏词语的图片,并将这些图片复制到mg_result文件夹下

当一条语句存在敏感词时,会对应的输出存在的敏感词语,并将这张存在敏感词的照片复制到mg_result里。

text:销量遥遥领先

confidence:0.9987784028053284

text_box_position:[[16,903],[488,900],

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档