- 1、本文档共31页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
五、发布内容 12、在配置名中输入要采集的栏目名称,点击保存配置。 13、设置完成后点击保存。 发布内容部分结束 目前三十一页\总数三十一页\编于一点 火车头采集器教程演示文稿 目前一页\总数三十一页\编于一点 火车头采集器教程 目前二页\总数三十一页\编于一点 打开火车头软件(LocoySpider.exe)界面如下图: 二、新建站点 目前三页\总数三十一页\编于一点 第一步:新建站点(如右图) 二、新建站点 第二步:点击“新建站点”后出现如下界面。填写站点名和站点网址点击“更新” 目前四页\总数三十一页\编于一点 三、采集网址 新建好的站点会排列在窗口左侧“站点任务列表”中。右击新建好的站点,点击“从该站点新建任务”,出现如下界面。 以本列表为例:/list/zx_yjdt.shtml 目前五页\总数三十一页\编于一点 点击向导添加后出现如下界面:批量/多页 三、采集网址 目前六页\总数三十一页\编于一点 三、采集网址 单条网址选项下: 目前七页\总数三十一页\编于一点 三、采集网址 填写完成后,点击“完成”。则出现以下界面: 目前八页\总数三十一页\编于一点 注释:1、在选择目标站时,最好选择文章更新快,文章质量高(少广告词、图片、链接、视频、flash等),内容丰富并且在业界有一定权威性的站点。2、过于滞后的文章不要采集。(例如:08年、09年的文章)3、在选择列表的过程中最好以站点为单位,不要以某个列表为单位,这样采集效率会事半功倍。4、在选择目标站时尽量不要选择动态页,多选择可以用数字或字母(*)代替的静态页。5、在采集过程中遇到不需要采集的文章,可以通过“不得包含”功能将其过滤掉。 三、采集网址 目前九页\总数三十一页\编于一点 完成采集网址步骤之后,点击“开始测试网址采集”按钮。会出现如下界面: 三、采集网址 目前十页\总数三十一页\编于一点 在检查采集连接无误的情况下,点击“返回修改设置”后,出现如下界面: 三、采集网址 目前十一页\总数三十一页\编于一点 选择“第二步:采集内容规则”后,出现如下界面。 四、采集内容 目前十二页\总数三十一页\编于一点 四、采集内容 选择“添加标签”后,出现如下界面。 目前十三页\总数三十一页\编于一点 將“标题”、 “资讯内容”、“内容摘要”、“信息关键词”、“meta关键词”、“meta描述”、“责任编辑”、“信息来源”添加到标签名中,將其他不需要的标签名称删除,出现如下界面。 四、采集内容 目前十四页\总数三十一页\编于一点 下面分别说明“标题”、“内容摘要”、“信息关键词”、“meta关键词”、“meta描述”、“责任编辑”、“信息来源”、“资讯内容”各个标签的采集规则。 四、采集内容 采集页面以/2011/06/020903507734.shtml为例。 第一、标题 查看本页面“源文件”有哪些信誉好的足球投注网站title代码,找到文章内容部分。如下图: 注释:一般情况下检索title/title都可以采集到我们需要的标题标签,但由于这篇文章此代码中设计到其他网站logo及列表分类不确定信息,所以选择 div id=“title”h1/h1中内容来代替。如果没有合适字段,可利用“内容排除”选项进行筛选。 目前十五页\总数三十一页\编于一点 双击上图窗口中的“标题”标签,將“源代码”中对应的标题开始代码和结束代码分别输入到开始字符段和结束字符段中,点击确定,标题标签设置完成。 四、采集内容 目前十六页\总数三十一页\编于一点 第二、资讯内容 四、采集内容 查看本页面“源文件”,找到文章内容部分。如下图: 目前十七页\总数三十一页\编于一点 1、双击上图窗口中的“资讯内容”标签,將“源代码”中对应的资讯内容开始代码和结束代码分别输入到开始字符段和结束字符段中。2、勾选“HTML标签排除”中的“链接”、“层”、“Span”、“图象”、“脚本”选项。3、选择“内容排除”中的添加项,將资讯内容代码中的无用代码和文本添加在此选项中,过滤废物信息。4、点击确定,资讯内容标签设置完成。 如下图: 四、采集内容 目前十八页\总数三十一页\编于一点 四、采集内容 目前十九页\总数三十一页\编于一点 四、采集内容 注释: 在资讯内容采集过程中最主要的是对垃圾信息的删除,其中需要注意的有以下几项: 1、广告语 (例如:A href=/zt/shidabanjiangli/index.shtml target=_blank2010年建材行业十大评选活动圆满落幕,电话:01062298529/A) 2、特殊标签 (例如:IFRAMEsytle标签,大部分标签会在“HTML标签排除”中删除。) 3、网站logo (例如:【STRONGA href= / targe
文档评论(0)