- 1、本文档共7页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
CX文章采集器规则写法,怎样写Discuz论坛采集规则
CX文章采集器规则写法教程,教你如何写采集规则
相信做用Discuz做站的用户是非常多的,那么用到CX采集插件的用户也是很多,自己也用过CX采集插件,个人觉得非常不错,是Discuz插件中一款很不错的采集插件,很适合Dicuz,可以说是类似于织梦,新云等程序后台自带的那种采集插件,不过很多人对于插件的采集规则写法还是很搞不来,自己的水平虽然不高,但是还能勉强写些规则,所以就写个简陋点的教程,新手可以看一看,老手你也别喷我!
在cx采集插件中,机器人就是采集器,首先给大家讲一下采集器制作的基本原理和思路!
1,首先确定要采集的文章列表页面的链接(这里的链接一定要是列表的连接)
2,要确认要采集这个列表页面的内容区域,也就是机器人中的“列表区域识别规则”
3,要确认要采集这个列表页面中的文章的连接,也就是“文章链接URL识别规则”
4,然后,我们就要确认要采集的文章内容范围,也就是“文章内容识别规则”
5,依靠前面4步,我们已经基本确定了要采集的范围,要过滤一些自己不想要的文章题目或者内容,大家可以按实际情况设置“过滤规则”
下面我们的教程正式开始,我以搜瘦网的一个文章列表为例子,给大家讲解;下面我们具体将采集 HYPERLINK /jfff/ysjf/sssp/ /jfff/ysjf/sssp/这个列表页面;
第一步:后台—插件—CX采集器—添加机器人
基本设置:1.机器人名(即机器人的名称);2.匹配模式(一般情况选正则表达式);3.一次采集总数(即一次采集的总个数,按自己的选择设置);4分批采集数(默认为5,不可太大,否则采集会超时)5,发布时间(可以自定义发布时间,不设置的话以当前的时间为主)
第二:设置采集的列表页面
1.采集页面的url设置有两种,一是手工输入,二是自动增长,我们以手工输入为例;添加好链接后,点击下测试,看是否可以链接到;
2.采集页面的编码设置,我们可以点击程序辅助识别,这里要填的是被采集页面的编码,其他3项,按个人需要设置
3.设置列表区域识别规则
?? 到我们要采集的页面,点击右键,查看源文件,然后找到文章链接url的区域,规则中url区域用[list]表示
?现在我们就要找到开始区域和结束区域的div或其他标签,文章链接URL一定要在这个区域中,而且是最近的,标签必须要独一无二,比如:
table class=newslist cellspacing=5 cellpadding=3 width=100% border=0[list]table width=100% border=0 cellspacing=0 cellpadding=0 style=table-layout:fixed;word-wrap:break-word;word-break:break-all
然后,我们需要点击一下后面的测试,看是否能识别出文章链接url区域
4,文章链接url识别规则
?规则需要的连接如图
我们将·a href= HYPERLINK /2011/5/4/28072.shtml /2011/5/4/28072.shtml 中,引号中的连接替换成[url],即 ·a href=[url] 填到规则中,然后点击测试
文章链接url补充前缀,因为连接中有域名,所以就不需要填了,如果没有,则需要填上域名
第三,文章内容页面采集设置
1,文章标题识别规则,点开一篇文章,在文章页面中点击右键,查看源文件,找到这篇文章标题左右最近的标签,文章标题用[subject],代替
以列表中的这篇文章为例; HYPERLINK /2011/5/4/28084.shtml /2011/5/4/28084.shtml
标题规则即:title[subject]/title 填入规则,点击测试
大家都看到,识别后的标题,其中后面的并不是我们想要的标题,所以我们要把不需要的过滤掉,现在我们复制不想要的一些标题即(-资讯中心-减肥频道-减肥方法-饮食减肥-瘦身食谱)
将他填到下面的文章标题过滤规则中,现在我们测试下,看看是不是得到我们想要的标题了?
2,文章内容识别规则
找到源文件中这篇文章区域开始和结尾最近的标签,内容用[message]表示,即内容识别规则为
table border=0 cellpadding=0 cellspacing=1 id=soosou_news_content_show[message]div id=soosou_news_content_editor? 点击测试
这样规则就写好了,点击最下面的提交,其他规则按你要采集的网站和个人的需要自己设置。
然后,点击开始采集
采集完成后,点击查看采集结果
然后选择,需要导入到你论坛的哪个版块
这样整个采集过程就结束了,教程写的很简陋,但毕竟是个人原
您可能关注的文档
最近下载
- 福彩市场管理员培训.pptx
- 7.2化石能源的合理利用教学设计---2024-2025学年九年级化学人教版(2024)上册.docx
- 35kv电缆头制作监理旁站记录.docx
- Unit 4 Plants around us Part C Make a paper garden(课件)人教PEP版(2024)英语三年级上册.pptx
- 中班综合《有趣的螃蟹》PPT课件.ppt
- 顺丰快递企业运作模式探析论文.pdf VIP
- 幼儿园课件:婴幼儿主被动操(1).ppt
- 《PCB设计与制作》课程标准.doc VIP
- 2020明辉学校开展“读书月系列活动”简讯美篇(可编辑).pdf VIP
- 行车轨道更换施工方案.docx
文档评论(0)