互联网不良图片监控系统V1.1讲述.ppt

下载文档 降价啦

8
0
约3.21千字
约 23页
2017-03-07 发布于湖北
举报
版权申诉
保障服务

互联网不良图片监控系统V1.1讲述.ppt

1、本文档共23页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

互联网不良图片监控系统V1.1讲述

黄色视频图像识别 1.分辨率检测用于去除小图标 2.肤色检测、人脸检测用于去除非人物图像 3.泳装检测用于降低对泳装图像的误判不良视频图像识别处理流程 11 1.可以识别包括黄色在内所有类型的违规视频，包括反动、暴力、群体事件等 2.基于视频指纹的自学习功能，提高识别准确率长微博的处理技术—智能文本语义分析技术类似于百度、谷歌等有哪些信誉好的足球投注网站引擎的技术，对采集的网页数据进行处理。 1）去掉网页中的标签等内容； 2）格式化文章内容，提取标题、正文、时间等信息 3）基于词库，去掉文章中的停用词，提取文章内的关键词并创建索引分词与全文检索文章情感分析话题自动聚合分析每篇文章的情感倾向性（正、负面分析） 1）提取文章中包含情感词的语句 2）分析每个语句的倾向性，然后综合加权分析整篇文章的倾向性把所有讨论相同主题的文章进行自动分类，并提取文章中的热词 1）文章的词频、中心词分析； 2）通过一定的算法，比对两篇文章的相似性。从而进行自动归类 3）自动提取文章的热词，形成话题摘要我司智能语义分析技术主要包括：分词与全文检索、文章情感分析、话题自动聚合词库丰富处理高效分类准确系统优势分析序号优势说明 1 互联网数据全覆盖：支持对微信、微博、论坛、QQ群等的全景监控 2 快速判断图片中是否包含大量文字，提高处理性能 3 可支持宋体、楷体、仿宋等标准字体的识别 4 OCR识别准确率高，识别率90% 5 支持对黄色图片的自动检测识别 2015-03 湖南神州祥网科技有限公司胡育THANKS! 2015-04 湖南神州祥网科技有限公司互联网不良图片及长微博监控系统互联网防暴恐图像视频监控系统系统概述系统功能技术特点 1 2 3 目录 Directory (一)互联网不良图片监控系统——概述系统概述系统可实现对互联网(包括微博、论坛、微信、QQ群等主要SNS媒体)传播的图片内容进行深入分析，对其中的文字类图片进行检测，文字内容提取，关键字分析，发现其中的不良信息内容并进行预警，同时为用户提供扫描检测报告。系统主要功能网络爬虫，支持多网站并行爬取，支持微信、微博、论坛、网媒数据的采集爬取文字类图片检测，快速判断某张图片是否包含大量文字内容关键词检测，采用高性能的AC关键字匹配算法，支持关键字的模糊匹配，算法复杂度不随文本内容的大小线性增加，处理效率高黄色图像识别，采用模式识别和视频指纹技术相结合的方式，支持对图片视频的不良信息检测。系统总体架构系统部署方案系统组成： 1.数据采集服务器：负责对微信、微博、论坛中的图片数据进行采集 2.图像处理服务器：负责文字类图片的预处理、拼接、OCR识别等功能 3.数据库接口应用服务器：负责数据的存储、系统配置、数据展现、统计分析等功能系统处理处理流程图片检测数据采集 OCR识别文本匹配数据采集：通过API接口、爬虫等方式采集微博数据，结构化微博数据，包括发帖人、发帖时间、微博内容、图片等数据；文本匹配与预警：利用关键词匹配技术，判断文本是否包含敏感信息。同时利用文本分析算法判断文字的倾向性，提取文本中的关键词 OCR识别：利用OCR识别算法，提取图片中的文字内容，转化为文本格式图片检测：通过我司特有的图片检测技术，判断图片是否为文字类图片。同时对文字类图片进行预处理，对文字内容进行拼接系统概述系统功能技术特点 1 2 3 目录 Directory 系统功能—采集与关键词配置（Step 1）图片检测数据采集 OCR识别数据预警数据采集与关键字配置： 1）配置数据采集的网站 2）配置过滤的关键词系统功能—图片预处理（Step 2）图片检测数据采集 OCR识别数据预警图片预处理：快速检测图片是否包含大量文字内容 1）二值变化率首先将输入图片进行二值化，例如0和1，然后将图片分成多个不重叠的NxN块，例如8x8，计算每个NxN快中0，1变换的数量。对于同样的一个NxN块，文字类图片中的0/1变化频率将会远远高于普通图像。 2）边角点数量由于文字的特征，通常会含有很多的边角（corners）。因此，利用常见的边角检测算法，例如Harris，可以统计一个图像块里面含有的边角数量。当该数量超过一定的阈值之后，也可以认定该图片为长微博图片。本算法已经申请相关专利保护系统功能—图片OCR识别（Step 3）图片检测数据采集 OCR识别数据预警图片OCR识别：识别出图片中的文字内容当前在互联网上传播的内容，很多采用了把文字转换为图片后进行传播的方式，典型的应用如微博中的长微博，论坛发帖为了规避关键字