- 1、本文档共7页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
零星采购项目申报材料清单
项 目 名 称 : 网络舆情收集与分析综合系统软件
申报单位:新闻与传播ail:caogang@
一、要求:
且最近五年无违法违规行为;
2. 供应商的舆情产品拥有完全自主知识产权,有5年或以上网络舆情监测经验;
3. 供应商应具有独立企业法人资格,双软认定;
4. 供应商应通过质量管理体系认证,拥有ISO9001认定证书;
5. 供应商企业法人营业执照、组织机构代码证、法定代表人证明、税务登记证、银行资信证明、资质证书和其他资质证明齐全;
二、技术要求
网络舆情 监测范围
监测系统内置目标需要至少涵盖30万个域名 数据监测目标需要支持至少5000个主流网站 对于需要的微博页面,能够采集微博详情与转发数 对于重点网站的新闻回复、跟帖回复可以配置后精确采集 自己加入任意网站,不需要编写复杂的逻辑表达式 自己添加的目标网站数量无限制 全网采集覆盖95%以上,定向采集层次不少于3层 监测类型
涵盖微博、新闻、论坛、博客,视频,贴吧、电子报等媒体类型 有哪些信誉好的足球投注网站引擎、查询型网站、图像网站、视频网站 支持有弹出对话框需要用户登录的网站 支持需要模拟鼠标点击或者滑动等各种操作后才能获取的动态数据网站 支持Twitter与Facebook采集和深入社交关系分析 可以监测国内被屏蔽的境外网站 商品目录网站、成员目录网站、在线数据库网站等 支持协议类型
支持HTTP网站 HTTPS通信加密网站 FTP文件下载网站 SOAP API网站 REST API 网站 3G网站 收集模块功能 配置目标网站需要有可视化向导支持,易于操作 对于需要的论坛页面,能采集论坛主贴和所有的跟帖,还能能够采集点击数和回帖数 自动识别目标网页的文字编码,并统一解析为Unicode格式。支持中、英等语言 需自动支持 HTTP 压缩编码传输 gzip/deflat,支持代理转换。降低对目标网站的请求压力。减少被目标网站拒采的概率 可以自动登录,自动选择条件等各种操作 自动识别常见验证码 网页智能抽取,采集软件能够自动从复杂的网页内容中通过统计算法,智能抽取出标题、正文、日期、来源和作者等元数据属性。智能抽取兼顾准确性和完整性 特殊收集 支持对手机新闻客户端内容进行监测,支持对本地电子邮件账户中内容进行监测 可以支持各种Windows程序的采集,比如QQ群,微信群; 可以支持采集格式未知文件中数据 可以支持PDF文件中数据、Office文件中数据、图片中的数据 支持Twitter监测、Facebook监测、Youtube监测、Keek监测 支持paltalk等聊天室平台的语音、视频、文本抓取监测 特殊收集问题处理 可以解决IP访问频率有限制的问题 可以提供防盗链措施,数据加密措施 可以提供数据乱码措施 可以提供数据图片化措施,能够把新浪微博长文章图片文字信息还原 可以提供数据隐藏措施 收集模块性能 支持自定义采集监测核心词汇数量级在千级别 信息必须全部本地采集,不用外部传入任何数据 软件可以实现 7*24 小时不间断无人值守的信息采集,稳定运行 可以根据采集时效性要求,有多种不同效率的采集模式可以选择 自定义设定各个网站的采集频率和采集时间 收集措施和拓展 采用分布式多台采集服务器采集 采用多任务多线程自动分配采集任务 可按项目规模进行线性扩展 支持海量数据采集 数据存储模块(必备)★ 采用开源数据库MySQL 支持亿级记录存储 千万级表查询当天采集单条记录时间 小于0.5秒 亿级表查询当天采集单条记录时间小于1秒 支持保存网页html快照 支持保存网页图片截屏快照 支持视频文件存储 数据分析模块(必备)★ 数据自动处理
自动抽取舆情要素:标题,来源,发布时间,正文,并进行自动摘要 智能抽取正文。正文抽取准确率达到 95%以上 自动分类:自动根据设置的关键词进行分类,关键词可以进行任意与或非逻辑运算,且设置简单,不需要采用 and or not 等逻辑运算符号 自动过滤:利用舆情分类信息,自动或根据用户自定义把不关注的热点信息过滤掉,提高信息的准确性 可以对原始发布时间智能的统一规整化处理 自动相似计算:自动识别出相似信息,仅显示第一条,其它相似信息可需要时展示显示 自动分析
自动聚类:自动对采集到的信息加以聚类,便于直观了解信息的聚合情况,可以点击某个聚类类别查看该类别下信息列表 自动去重:可按网址,标题自动去除重复信息 自动摘要:自动对正文摘要,以方便列表查看 自动人名识别
文档评论(0)