互联网不良图片监控系统V1.1讲述.ppt

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
互联网不良图片监控系统V1.1讲述

黄色视频图像识别 1.分辨率检测用于去除小图标 2.肤色检测、人脸检测用于去除非人物图像 3.泳装检测用于降低对泳装图像的误判 不良视频图像识别处理流程 11 1.可以识别包括黄色在内所有类型的违规视频,包括反动、暴力、群体事件等 2.基于视频指纹的自学习功能,提高识别准确率 长微博的处理技术—智能文本语义分析技术 类似于百度、谷歌等有哪些信誉好的足球投注网站引擎的技术,对采集的网页数据进行处理。 1)去掉网页中的标签等内容; 2)格式化文章内容,提取标题、正文、时间等信息 3)基于词库,去掉文章中的停用词,提取文章内的关键词并创建索引 分词与全文检索 文章情感分析 话题自动聚合 分析每篇文章的情感倾向性(正、负面分析) 1)提取文章中包含情感词的语句 2)分析每个语句的倾向性,然后综合加权分析整篇文章的倾向性 把所有讨论相同主题的文章进行自动分类,并提取文章中的热词 1)文章的词频、中心词分析; 2)通过一定的算法,比对两篇文章的相似性。从而进行自动归类 3)自动提取文章的热词,形成话题摘要 我司智能语义分析技术主要包括:分词与全文检索、文章情感分析、话题自动聚合 词库丰富 处理高效 分类准确 系统优势分析 序号 优势说明 1 互联网数据全覆盖:支持对微信、微博、论坛、QQ群等的全景监控 2 快速判断图片中是否包含大量文字,提高处理性能 3 可支持宋体、楷体、仿宋等标准字体的识别 4 OCR识别准确率高,识别率90% 5 支持对黄色图片的自动检测识别 2015-03 湖南神州祥网科技有限公司 胡育THANKS! 2015-04 湖南神州祥网科技有限公司 互联网不良图片及长微博监控系统 互联网防暴恐图像视频监控系统 系统概述 系统功能 技术特点 1 2 3 目录 Directory (一)互联网不良图片监控系统——概述 系统概述 系统可实现对互联网(包括微博、论坛、微信、QQ群等主要SNS媒体)传播的图片内容进行深入分析,对其中的文字类图片进行检测,文字内容提取,关键字分析,发现其中的不良信息内容并进行预警,同时为用户提供扫描检测报告。 系统主要功能 网络爬虫,支持多网站并行爬取,支持微信、微博、论坛、网媒数据的采集爬取 文字类图片检测,快速判断某张图片是否包含大量文字内容 关键词检测,采用高性能的AC关键字匹配算法,支持关键字的模糊匹配,算法复杂度不随文本内容的大小线性增加,处理效率高 黄色图像识别,采用模式识别和视频指纹技术相结合的方式,支持对图片视频的不良信息检测。 系统总体架构 系统部署方案 系统组成: 1.数据采集服务器: 负责对微信、微博、论坛中的图片数据进行采集 2.图像处理服务器: 负责文字类图片的预处理、拼接、OCR识别等功能 3.数据库接口应用服务器: 负责数据的存储、系统配置、数据展现、统计分析等功能 系统处理处理流程 图片检测 数据采集 OCR识别 文本匹配 数据采集: 通过API接口、爬虫等方式采集微博数据,结构化微博数据,包括发帖人、发帖时间、微博内容、图片等数据; 文本匹配与预警: 利用关键词匹配技术,判断文本是否包含敏感信息。同时利用文本分析算法判断文字的倾向性,提取文本中的关键词 OCR识别: 利用OCR识别算法,提取图片中的文字内容,转化为文本格式 图片检测: 通过我司特有的图片检测技术,判断图片是否为文字类图片。同时对文字类图片进行预处理,对文字内容进行拼接 系统概述 系统功能 技术特点 1 2 3 目录 Directory 系统功能—采集与关键词配置(Step 1) 图片检测 数据采集 OCR识别 数据预警 数据采集与关键字配置: 1)配置数据采集的网站 2)配置过滤的关键词 系统功能—图片预处理(Step 2) 图片检测 数据采集 OCR识别 数据预警 图片预处理:快速检测图片是否包含大量文字内容 1)二值变化率 首先将输入图片进行二值化,例如0和1,然后将图片分成多个不重叠的NxN块,例如8x8,计算每个NxN快中0,1变换的数量。对于同样的一个NxN块,文字类图片中的0/1变化频率将会远远高于普通图像。 2)边角点数量 由于文字的特征,通常会含有很多的边角(corners)。因此,利用常见的边角检测算法,例如Harris,可以统计一个图像块里面含有的边角数量。当该数量超过一定的阈值之后,也可以认定该图片为长微博图片。 本算法已经申请相关专利保护 系统功能—图片OCR识别(Step 3) 图片检测 数据采集 OCR识别 数据预警 图片OCR识别:识别出图片中的文字内容 当前在互联网上传播的内容,很多采用了把文字转换为图片后进行传播的方式,典型的应用如微博中的长微博,论坛发帖为了规避关键字

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档