- 1、本文档共15页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于web的可视化定向信息采集系统用户手册
基于web的可视化定向信息采集系统用户手册
1.引言 2
1.1编写目的 2
1.2背景 2
1.3定义 2
1.4参考资料 2
1.5系统介绍 2
1.6系统应用领域: 3
1.7软件特点 3
1.8系统配置要求 3
2.用途 4
2.1功能 4
2.2性能 5
2.3安全必威体育官网网址 6
3.运行环境 6
3.1硬设备 6
3.2支持软件 6
3.3数据结构 6
4.使用说明 6
4.1登录与注册 6
4.2主界面 7
4.2.1任务定制 8
4.2.2采集 10
4.2.3频道管理 10
4.2.4自动采集 12
4.2.5错误处理 13
1.引言
1.1编写目的
本用户手册描述了基于WEB的可视化定向信息采集系统的详细使用说明,包括主要的操作概述和指南,为帮助首次使用这个系统的操作者能迅速掌握并使用这个系统。
1.2背景
互联网上信息种类繁多,瞬间万变,给人们扩大获取信息来源的同时,也带来了利用互联网上的信息麻烦。我们需不断地手工刷新目标网站的信息,而且对于一些网 站信息变化速度快的网站,我们经常得不到我们感兴趣的信息,就需要通过目标网站提供的站内有哪些信誉好的足球投注网站或互联网有哪些信誉好的足球投注网站引擎去获取。而且在需要将多个目标网站的信息每天自动整合到自己的网站,或用于内部人员使用时,就需要投入大量的人力与物力用于信息采集。而《》可以满足这些需要。Htmlparser: 网页抓取与解析的辅助java开源工具包
Informationcollection: 信息采集
1.4参考资料
技术文档:《Java 2 核心技术》,《Java API》,《Htmlparser API》
需求和设计文档:《科研信息采集系统需求说明》
执行文档:《科研信息采集开发计划》
开发手册:《科研信息采集系统开发手册》
1.5系统介绍
《》
7、信息咨询与信息增值
8、信息安全和信息监控
1.7软件特点
可视化的数据采集方案,该方案建立在可视化信息采集技术的基础上。重要的特点在于方案能够对网络环境进行良好的解析,并且完成可视化封装工作,使得用户可以任意地定位自己的采集目标和内容。并且此方案使得采集参数设置极为简单,使得该系统可以直接面对大众,让非专业人士享受到定向数据采集带来高效及时的信息服务的好处。
1.8系统配置要求
需要Windows NT4/ Windows 2003 Server 或更新的操作系统。
需要 Microsoft SQL Server 7/ 2000或其它JDBC 接口
硬件平台:intel xeon 1G 以上CPU,1000M 以上RAM,硬盘空间40GM 以上
2.用途
2.1功能
该系统的整个采集过程可观,可控,步骤简洁。用户无需下载,无需配置过多的网络参数便可轻松完成定向数据采集、入库、浏览等工作。同时系统可以实时监测目标网站,在一次采集成功后,实现自动跟踪采集。可视化定向采集技术在网络参数自动优化获取,数据环境解析,数据定位方面现出色,这是因为这点,使得网络数据采集系统面向大众群体成为可能。用户无需了解专业的参数也可以轻松跟踪获取自己想要的内容。该系统将为大众群体的工作,生活提供及时,高效,方便的信息数据采集服务。
配置简单,支持关键字采集
在对网站新闻内容进行采集时,用户只需输入正确的网址,系统即会对网页相关内容进行分块,用户通过自己的点击选择即可采集自己想要的内容。同时支持关键字采集,在提交参数时如果输入关键字则系统会提取出只含有关键字信息的新闻信息。分块定位后示意图如图2-1-1所示:
图2-1-1 分块定位示意图
所采即所得,所采即可见
在用户输入一确定的网站后,系统即可根据网站的栏目对该网站进行智能的分块,一般而言,分块后所见的泛黄区域都是可采集的区域,采集后即可存入服务器数据库,使用户得到想要的信息。如图2-1-2所示:
图2-1-2 采集示意图
增量采集与自动更新
增加采集:对于初次采集目标网站,软件支持完全采集;而对于已采集过的站点支持增量采集。
支持自动更新:自动检测站点是否发生更新,并不会遗漏任何一个重要的信息。
支持多种编码
支持多种网站的信息的编码,GBK、BIG5、UNICODE、UTF8等等,并且无需用户手动填写,系统可以自己识别出网站的编码格式。
支持阅读模板
对采集到的科研新闻信息,系统将提供一款阅读模板以方便用户的阅读。
支持附件采集
包括图片附件采集、文档附件采集等,附件与正文自动映射与关联。文档中出现的附近可由用户自行选择是否下载。
阅读的模板和附件的采集如图所示:
图2-1-3 阅读模板和附件示意图
多线程、多任务
2.2性能
支持多线程采集。
单机在数据采集在G级以上。
数据与数据源同步更新小于10秒级。
2.3安全必威体育官网网址
设置了用户登录的模式使用系统,从而他人无法轻易获取用户采集到的信息。该系统将检测当
您可能关注的文档
最近下载
- AP宏观经济学 2012年真题 (选择题+问答题) AP Macroeconomics 2012 Released Exam and Answers (MCQ+FRQ).pdf VIP
- 浙科版《综合实践活动》五下 第五课 活动A、我当小法官—走进法庭教案.doc
- 8.1 认识生命 课件-2024-2025学年统编版道德与法治七年级 上册 ).pptx VIP
- 化工制图教学设计(全套).docx VIP
- 2024-2030年中国氦(液氦和气态氦)行业市场发展趋势与前景展望战略分析报告.docx
- AP宏观经济学(2013年真题)全套含选择题.pdf VIP
- 自考00537中国现代文学史重点知识点汇总速记宝典.pdf
- 建积分之术筑工程之技:定积分及其应用教学实施报告.pdf
- AP宏观经济学(2015年真题)全套含选择题.pdf VIP
- 英语--倒装句讲解..ppt VIP
文档评论(0)