网站大量收购独家精品文档,联系QQ:2885784924

国际互联网海量情报智能分析详解.doc

  1. 1、本文档共29页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
附件四 国际互联网海量情报智能分析系统介绍 白 皮 书 目 录 一 项目背景 1 二 功能介绍 1 1. 词汇分析 2 2. 文档名分析 3 3. 预置关键词 4 4. 收藏夹 5 5. 网页白名单 5 6. 分析进度 6 7. 统计查询 7 8. 报警通知 7 9. 分析工具 9 10. 系统用户 10 三 模块组成 11 1. 数据采集系统 11 1.1. 系统构架说明 13 2. 全文检索系统 16 2.1. 功能简介 16 2.2. 智能分析引擎 17 2.3. API检索接口 17 2.4. 数据存储 18 3. WEB管理平台 20 四 工作流程 20 五 技术优势 21 A. 数据采集系统技术优势 21 B.全文检索系统技术优势 23 六 维护管理监控 25 七 网页数据采集技术指标 26 八 系统环境要求 26 一 项目背景 互联网正成为舆论形成的新型重要大众媒介,也成为民意表达的新的重要平台。网民的价值取向有时会表现出惊人的一致,因此所形成的影响力不可低估,政府应对互联网舆情建立汇集与分析机制,及时回应与疏导。本系统侧重分析互联网社区中针对某些机构单位或者个人的言论。可定制监控的社区网站范围,也可设定要重点关注的机构单位或者个人。 二 功能介绍 登录界面如下: 主界面如下: 本系统使用B/S结构,不需要安装及维护客户端,方便用户的使用。 用户事先通过WEB管理平台设定敏感关键词组,后台服务模块对政府网站的文字信息进行过滤,发现可疑的网页,便进行记录,用户可以通过WEB管理平台进行查看。具体功能列表如下: 词汇分析 分析结果 对事先设置的词汇进行过滤,中标后,显示在分析结果列表。 如图: 词汇管理 对词汇进行管理,可以对其进行增删改查操作。 对词汇可以设置权值,已经中标权值和报警权值,报警方式有短信和邮件。 如图: 机构单位分析 分析结果 对预设的机构单位进行全文匹配,只要匹配上一个就进行报警。分析结果可以查询中标结果。 机构单位管理 对机构单位进行管理,可以对其进行增删改查操作。 每行输入一个机构单位,只要发现就算中标,报警方式有短信和邮件。 预置关键词 全文检索 使用预置的关键词组,对检测的网站群进行全文检索,可以指定检索结果中摘要的显示字数。 如图: 关键词管理 预置关键词的管理,对其进行增删改查。如图 : 收藏夹 收藏管理 浏览个人收藏夹中收藏的可疑网页 如图: 收藏分类管理 管理收藏分类名称。对收藏进行分类,便于浏览。 如图: 网页白名单 白名单管理 对中标后的网页,人工审核后,如果没有问题,可以加入白名单,后台不在进行分析。 如图: 分析进度 各区县进度 以地图的方式展示每个区县网页爬取的进度,以及中标网页的数量。下图以北京市为例。 如图: 统计查询 全文检索统计 统计某个时间段内对某个关键词的查询次数 如图: 预置检索统计 统计某个时间段对预置关键词的查询次数 报警通知 历史报警记录 查询浏览历史报警记录。 如图: 参数设置 设定报警开关,报警方式,以及报警的手机号,邮箱地址。 如图: 分析工具 互联网有哪些信誉好的足球投注网站 互联网有哪些信誉好的足球投注网站引擎的比对工具,方便在不同有哪些信誉好的足球投注网站引擎之间切换,对比有哪些信誉好的足球投注网站结果。 如图: 词频分析 对文章进行分析,进行中文分词,然后统计词频,便于提取文章的核心词汇。 如图: 系统用户 创建用户 创建新用户,设置用户操作权限 如图: 用户管理 对用户账号,以及权限,进行增删改查。 如图: 三 模块组成 数据采集系统 本模块提供对政府网站数据进行采集的服务。 根据用户事先配置好的规则(网页下载规则,数据块解析规则等),进行数据采集。 当对方网站数据进行了更新,或者添加新数据时,系统自动会进行检测,并进行采集,然后更新到全文检索数据库。 本模块采用分布式处理,可以通过采集管理平台把采集任务发布到不同的服务器,能够进行对大量数据源网站进行高频率的并行监控采集。 对服务器群管理方便快捷,通过采集管理平台进行统一管理,监控,统计,分析。 本模块采用插件方式,对采集来的数据可以进行修正。对输出方式可以通过插件自由定制。可扩展性高。 登录界面: 主界面截图: 系统构架说明 工作过程描述 采集的目的就是把对方网站上网页中的某块文字或者图片等资源下载到自己的数据库或其他的存储形式,这个过程需要做工作:下载网页,解析网页,修正结果,数据。如果数据符合自己要求,修正结果这步可省略。 工作流程图如

文档评论(0)

tt435678 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档