(精)内容安全技术.ppt

  1. 1、本文档共40页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
内容分类 ? 内容分类是指过滤系统检查流经的文本、根据特征数据库判断文本属于哪一类文本的操作。 ? 在向量空间模型中一般通过计算流经文本特征向量(W1,……,WN)和目标特征向量(W1*,……,WN*)的相关系数来判断类别:当相关系数大于一个阈值时,可判断流经的文本属于目标特征(W1*,……WN*)对应的哪一类文本。 内容分类 话题发现和跟踪 话题识别与跟踪技术是一种能自动 确定新闻信息流中话题结构的技术。它主要以网络新闻。广播和电视信息流为处理对象,将内容按话题区分,监控对新话题的报道,并将涉及某个话题的报道组织起来,以某种需要的方式呈献给用户。 话题发现和跟踪 分词报道切分 新事件识别 报道关系识别 话题识别 话题跟踪 报道切分是指将从一个信息源获得的语言信息流分割为不同的新闻报道。一个新闻栏目通常包括很多条新闻报道,而这些新闻条目之间一般有一定的分割表示,或者在内容编码上有一些变化,这些都是分割的依据。 报道切分 * * 内容安全技术 文本过滤 、话题发现和跟踪 传世 为您整理 文本过滤 话题发现和追踪 文本是最常出现的应用层数据形式之一。文本过滤属于被动的内容安全技术,它不仅可以用于防火墙,也适用于阻止垃圾邮件,防范信息泄露,有哪些信誉好的足球投注网站网络敏感内容,这些应用也需要从截获或有哪些信誉好的足球投注网站到得数据中发现特定的文本内容或对文本进行分类,执行相应的安全策略。 文本过滤 文本过滤 最简单的文本过滤方法采用关键词查找,通过文字串匹配算法确定文本是否包含某些特定的词,进而确认文本类别。当前,研究人员提出了很多串匹配算法,提高了匹配效率,但是,由于各个关键词的重要程度不同或他们之间的关联方式不同,发现他们的存在往往不能判断文本的特性。典型的,当系统发现一个文本包含一些不良词时,往往不能准确判断文章是从正面或从反面的角度使用这些字词,为了实施正确分类,系统可能需要知道不良词出现的频率、它们之间的关联。 文本过滤 分词 内容分类 特征提取 分词 分词是将文本语言分解为词。在英语、法语等西方语言中,空格是单词之间的分隔符号,因此计算机比较容易对西文文本分词。而中文由互相之间没有分隔的字组成,单词仍然是表达含义的单位,一个中文词包括的字数不等,因此,中文分词的目的是要将文本文字分割成具有独立含义的词。分词不但用于分解实例文本,也用在实际过滤中分解待过滤的文本。 整词二分法 分词词典 基于逐字二分法 Trie索引树法 整词二分法 . . . . . . . …… 783 …… 239 …… 089 005 . … . . … . . . . . … . . . . . . . 啊 阿 大 肝 肝炎 …… 阿Q 阿 啊喂 啊哟 啊哈 啊呀 啊 首字哈希表 第一项指针 词索引表 词典正文指针 词典正文 分三级:首字哈希表,词索引表,词典正文。 Trie索引树法 1.首字哈希表 ?类似于整词二分的首字哈希表。它的一个单元是所对应汉字的索引树的根结点。 2.索引树结点 ? 关键字:单一汉字; ? 子树大小:以从根结点到当前单元的关键字组成的 子串为前缀的词的个数; ? 子树指针:子树大小非0时,指针指向子树;否则指向叶子。 Trie索引树法 . . . . . . . …… 783 …… 239 …… 089 005 啊 阿 大 肝 …… 5 1 2 …… 白 坝 家 . . . . . 0 0 0 0 0 鼠 话 天 菜 ^ 大白菜 大白话 大白天 大白鼠 大白 首字散列表入口项个数 第一项指针 关键字 子树大小 子树指针 大坝 索引树的优点 Trie索引树词典的优点是:再分词中,在系统对被分解的语句的一次扫描过程中,无须预知待查询词的长度,沿树下行逐字匹配即可。避免了整词二分分词词典机制中不必要的多次试探性查询。 面向文本进行即时有哪些信誉好的足球投注网站和过滤的工具— Text Filter 基本用法: 打开一个文本文件,然后点击有哪些信誉好的足球投注网站框,输入查询字符串。有哪些信誉好的足球投注网站的结果就在输入的同时被过滤出来(不匹配的文本行被隐藏),同时关键字高亮显示。 常用的文本过滤技术与原理 一、主题过滤与向量空间模型 从用户对文本信息的取舍来说,文本过滤主要是主题过滤,即根据用户模型对文本进行搜集整理,将用户感兴趣的文本提交给用户,这更多是从文本的主题方面考虑的。 譬如,用户只对体育类的内容感兴趣,或者更进一步,只对足球的内容感兴趣, “ 体育 ” 和 “ 足球 ” 都是描述文本主题的词。 向量空间模型: 向量空间模型是最简便有效的文本表示模型之一 , 它是 Salton 等人于 60 年代首先提出的。由于该模型具有表示简洁和计算简便的特点 , 因此 ,

文档评论(0)

xiaofei2001128 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档