网站大量收购闲置独家精品文档,联系QQ:2885784924

TBSCIS操作手册20100329.doc

  1. 1、本文档共103页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
TBSCIS网络资源采编软件 操作手册 北京金信桥信息技术有限公司 Http:// 2010年3月 目 录 1 前言……………………………………………………………………………………………………………….4 1.1 运行环境 4 2 功能模块介绍 4 2.1 信息定位 4 2.2 采集设置 4 2.3 信息采集 4 2.4 信息分类 5 2.5 信息编辑 5 2.6 信息入库 5 3 操作员系统配置和登录 5 3.1 系统设置 5 3.2 操作员登录与退出 6 4 TBSCis操作员端操作 7 4.1 信息定位 7 4.1.1 添加栏目 7 4.1.2 添加任务 8 4.2 采集设置 12 4.2.1 配置栏目 12 4.2.2 配置采集时间 19 4.2.3 设置采集状态 20 4.3 信息采集 21 4.4 信息分类 23 4.5 信息编辑 37 4.6 信息入库 42 5 TBSCis独立入库程序 48 1 前言 随着网络技术的不断发展,网络逐渐渗透到每个人的生活当中。同时,网络上的资源也在日益的增加。随着信息的大量膨胀,如何有效的积累知识、有效的管理知识、有效的共享知识,对于现代化的信息社会来说是一个重大的课题。信息的获取加工便是其中不可或缺的基本元素。 新闻媒体、政府部门、大型企事业单位纷纷通过互联网技术搭建网络信息收集平台:新闻媒体需要获取大量的互联网上新闻资料,充实新闻资料库;政府机关需要收集与自身业务相关的文献资料,提升办公与决策效率;大型企事业单位需要快速获取行业宏观环境、政策动态与竞争对手信息…… 北京金信桥信息技术有限公司多年来致力于数字资源应用技术的研究和产品的开发,在积淀了多年的技术储备和应用实践后,推出了TBS网络资源采编软件(TBSCIS)。该软件集成了网页有哪些信誉好的足球投注网站、内容智能提取与过滤、自动分类、自动去重等技术,实现了对互联网信息采集、过滤、提取与批量上载的自动化与一体化,在自动化的同时,还提供了人工对信息的审核编辑功能。 1.1 运行环境 服务器端: 软件环境:windows 2000(SP4)/2003(SP1) 服务器版 硬件配置:CPU:Intel Xeon 2.0 GHz以上,RAM:1 GB以上,硬盘:120G,网卡:100/1000M自适应 客户端: 软件环境:windows 98/2000/xp/2003,IE 6.0以上 硬件配置:CPU:Intel Pentium 4 1.6 GHz以上,RAM:512 MB以上,硬盘:80G,网卡:100M 2 功能模块介绍 2.1 信息定位 信息定位工序的功能可新建采集任务,信息定位工序提供两种采集任务的建立,一种是已知网页地址的定点网页采集任务,一种是利用管理员在管理端配置好的通用有哪些信誉好的足球投注网站引擎进行采集的关键字采集任务。信息定位工序可利用元有哪些信誉好的足球投注网站引擎,从多个超级有哪些信誉好的足球投注网站引擎上利用关键字信息进行检索,获取信息后进行查重,然后操作人员根据返回的检索结果重新定位所需要的任务信息,将任务信息保存,以便后续的信息采集规则进行处理。提供多种方式的检索:按信息栏目进行检索和按关键词进行检索。 2.2 采集设置 采集设置工序提供为采集任务配置采集规则的功能,由于在信息定位工序支持建立两中采集任务的建立,采集设置工序也同样支持两种采集任务的配置,一种是定点网页采集任务的采集规则配置,另一种是按关键字采集任务的配置。 在进行采集规则的配置时,采集设置工序提供加工人员可视化的配置界面,对需要配置的网页进行节点的定位,并下载新闻标题和新闻正文的过程,该过程引导操作人员一步一步的进行每个栏目的采集规则的设置。 2.3 信息采集 信息采集工序可利用网络抓捕器和在采集设置工序配置的采集规则执行采集任务,自动的从网络上按照采集规则获取必威体育精装版的信息资源,将抓取的信息按照一定的格式保存为txt文本类型文件,同时将图片文件(jpg、gif等)以及电子文档(pdf、word等)这种对象数据文件保存在本地加工目录,采集完毕后程序会自动将采集下来的所有文件自动上传到服务器上管理端的加工目录。 在进行执行重复采集任务时,信息采集工序能够自动过滤之前已经下载过的信息,避免重复下载。 2.4 信息分类 信息分类工序提供智能化的信息自动分类技术,采用TBS基于内容的自动分类技术,可对采集的信息进行基于内容的自动分类,不需要人工干预,信息分类的自动分类技术是基于内容相似度计算的自动去重。不是利用简单的规则判断,而是利用内容的相似性进行排重判断,所以准确性更高。 信息分类工序的自动分类准确率是依托于在管理端所建立的分类模型,在管理端的分类训练模允许用户自行根据自己的分类需求和数据特点设定分类结构和生成特征模板,适应不同行业的需求,关

文档评论(0)

zzabc003 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档