网站大量收购闲置独家精品文档,联系QQ:2885784924

《SupeSite采集器的详细介绍》.pdf

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
《SupeSite采集器的详细介绍》.pdf

本电子书由站长百科()教程组制作 SupeSite 采集器的详细介绍  出处:站长百科  原文地址:/wiki/SupeSite_采集器介绍  本电子书整理自站长百科SupeSite_采集器介绍词条,查看内容请访问网站。 好消息:Lunarpages再推新优惠码:lun50off所有方案减50美元 SupeSite 支持手工采集和智能采集,手工采集需要您自己配置采集规则,智能 采集只需您添加需要采集的网址地址即可,程序会自动为您采集网站的信息。接 下来分别为您介绍两种采集方式: 一、手工采集: 手工采集即自己配置采集规则。打开 SupeSite 的 “系统设置”,点击 “资讯管 理”的 “采集器”,然后点击 “添加新机器人”。 首先简单讲解制作采集器的基本原理和思路: 1、确定您要采集哪个页面的新闻,将这些页面的地址填入到 “列表页面采集设 置”的地址框; 2、确定在这些页面您要采集的内容区域,因为不是一个网页所有的内容都要采 集回来,而是采集一个网页的一部分内容,所以您必须告诉程序您要采集的区域, 也就是 “列表区域识别规则”; 3、第2 步确定区域之后,还要告诉程序您要采集的文章链接,也就是 “文章链 接url识别规则”。  出处:站长百科  原文地址:/wiki/SupeSite_采集器介绍  本电子书整理自站长百科SupeSite_采集器介绍词条,查看内容请访问网站。 本电子书由站长百科()教程组制作 4、现在已经确定了大的采集框架,接下来要告诉程序在一个文章页面,文章的 标题( “文章标题识别规则”),文章的来源和作者分别是什 么。然后就是一 篇文章内容的范围,也就是说一个文章页面内,真正您需要采集的范围,就是 “文 章内容识别规则”。最后设置分页的区域和分页的链接地址。 5、以上4 个步骤已经确定了采集的范围,如果您需要过滤标题和内容,请根据 您的要求设置每一项的过滤设置,如 “文章标题过滤规则”和 “文章内容过滤规 则”等。 以上几个步骤确定范围都是通过查看页面源码,进行设置的,截取的方法需要一 些经验,练习2--3 次就可以领悟到了。 接下来介绍采集器的基本原理和步骤: 第1:打开 SupeSite 的 “系统设置”,点击 “资讯管理”的 “采集器”,然后 点击 “添加新机器人”。 这里需要特别指出的是:单次采集个数和自动导入。单次采集个数尽量设置较小 的数字,以免超时。自动导入,请选择资讯分类,可以直接将采集的结果导入到 资讯库中。如下图:  出处:站长百科  原文地址:/wiki/SupeSite_采集器介绍  本电子书整理自站长百科SupeSite_采集器介绍词条,查看内容请访问网站。 本电子书由站长百科()教程组制作 第2:填写 “列表页面采集”和 “采集页面编码”。请填写要采集的页面地址(列 表页面地址)。这里分为手工输入和自动输入:手动输入需要您自己将所需采集 的地址逐行输入。自动增长只需填入采集页面的地址和页面页码,用[page]代替 分页变量。如下图: 点击上图中的,尝试链接,可以看到如下图的页面,这样可以判断您的服务器是 否可以链接到要采集的网站,即检测服务器是否允许采集,如果这里显示无法链 接,则不能采集该网页。 设置 “采集页面编码”,是您采集网页的编码,并不是您站点的编码。这里切记!! 如下图:  出处:站长百科  原文地址:/wiki/SupeSite_采集器介绍  本电子书整理自站长百科SupeSite_采集器介绍词条,查看内容请访问网站。 本电子书由站长百科()教程组制作 第3:设置 “列表区域”和 “文章链接”的识别规则。如下图,填入列表区域的 规则和文章链接的规则,采集内容的范围用[list]代替,采集文章的标题用[url] 代替。文章链接URL 的剔除和过滤规则,请您参考图片里的详细说明,这里不再 赘述。  出处:站长百科  原文地址:/wiki/SupeSite_采集器介绍  本电子书整理自站长百科SupeSite_采集器介绍词条,查看内容请访

文档评论(0)

ghfa + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档