CX文章采集器规则写法,怎样写Discuz论坛采集规则.docVIP

CX文章采集器规则写法,怎样写Discuz论坛采集规则.doc

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
CX文章采集器规则写法,怎样写Discuz论坛采集规则

CX文章采集器规则写法教程,教你如何写采集规则 相信做用Discuz做站的用户是非常多的,那么用到CX采集插件的用户也是很多,自己也用过CX采集插件,个人觉得非常不错,是Discuz插件中一款很不错的采集插件,很适合Dicuz,可以说是类似于织梦,新云等程序后台自带的那种采集插件,不过很多人对于插件的采集规则写法还是很搞不来,自己的水平虽然不高,但是还能勉强写些规则,所以就写个简陋点的教程,新手可以看一看,老手你也别喷我! 在cx采集插件中,机器人就是采集器,首先给大家讲一下采集器制作的基本原理和思路! 1,首先确定要采集的文章列表页面的链接(这里的链接一定要是列表的连接) 2,要确认要采集这个列表页面的内容区域,也就是机器人中的“列表区域识别规则” 3,要确认要采集这个列表页面中的文章的连接,也就是“文章链接URL识别规则” 4,然后,我们就要确认要采集的文章内容范围,也就是“文章内容识别规则” 5,依靠前面4步,我们已经基本确定了要采集的范围,要过滤一些自己不想要的文章题目或者内容,大家可以按实际情况设置“过滤规则” 下面我们的教程正式开始,我以搜瘦网的一个文章列表为例子,给大家讲解;下面我们具体将采集 HYPERLINK /jfff/ysjf/sssp/ /jfff/ysjf/sssp/这个列表页面; 第一步:后台—插件—CX采集器—添加机器人 基本设置:1.机器人名(即机器人的名称);2.匹配模式(一般情况选正则表达式);3.一次采集总数(即一次采集的总个数,按自己的选择设置);4分批采集数(默认为5,不可太大,否则采集会超时)5,发布时间(可以自定义发布时间,不设置的话以当前的时间为主) 第二:设置采集的列表页面 1.采集页面的url设置有两种,一是手工输入,二是自动增长,我们以手工输入为例;添加好链接后,点击下测试,看是否可以链接到; 2.采集页面的编码设置,我们可以点击程序辅助识别,这里要填的是被采集页面的编码,其他3项,按个人需要设置 3.设置列表区域识别规则 ?? 到我们要采集的页面,点击右键,查看源文件,然后找到文章链接url的区域,规则中url区域用[list]表示 ?现在我们就要找到开始区域和结束区域的div或其他标签,文章链接URL一定要在这个区域中,而且是最近的,标签必须要独一无二,比如: table class=newslist cellspacing=5 cellpadding=3 width=100% border=0[list]table width=100% border=0 cellspacing=0 cellpadding=0 style=table-layout:fixed;word-wrap:break-word;word-break:break-all 然后,我们需要点击一下后面的测试,看是否能识别出文章链接url区域 4,文章链接url识别规则 ?规则需要的连接如图 我们将·a href= HYPERLINK /2011/5/4/28072.shtml /2011/5/4/28072.shtml 中,引号中的连接替换成[url],即 ·a href=[url] 填到规则中,然后点击测试 文章链接url补充前缀,因为连接中有域名,所以就不需要填了,如果没有,则需要填上域名 第三,文章内容页面采集设置 1,文章标题识别规则,点开一篇文章,在文章页面中点击右键,查看源文件,找到这篇文章标题左右最近的标签,文章标题用[subject],代替 以列表中的这篇文章为例; HYPERLINK /2011/5/4/28084.shtml /2011/5/4/28084.shtml 标题规则即:title[subject]/title 填入规则,点击测试 大家都看到,识别后的标题,其中后面的并不是我们想要的标题,所以我们要把不需要的过滤掉,现在我们复制不想要的一些标题即(-资讯中心-减肥频道-减肥方法-饮食减肥-瘦身食谱) 将他填到下面的文章标题过滤规则中,现在我们测试下,看看是不是得到我们想要的标题了? 2,文章内容识别规则 找到源文件中这篇文章区域开始和结尾最近的标签,内容用[message]表示,即内容识别规则为 table border=0 cellpadding=0 cellspacing=1 id=soosou_news_content_show[message]div id=soosou_news_content_editor? 点击测试 这样规则就写好了,点击最下面的提交,其他规则按你要采集的网站和个人的需要自己设置。 然后,点击开始采集 采集完成后,点击查看采集结果 然后选择,需要导入到你论坛的哪个版块 这样整个采集过程就结束了,教程写的很简陋,但毕竟是个人原

文档评论(0)

185****7617 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档