CX文章采集器规则写法,怎样写Discuz论坛采集规则.docVIP

下载本文档

2
0
约2.09千字
约 7页
2017-06-09 发布于北京
举报
版权申诉

CX文章采集器规则写法,怎样写Discuz论坛采集规则.doc

1、本文档共7页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

CX文章采集器规则写法,怎样写Discuz论坛采集规则

CX文章采集器规则写法教程，教你如何写采集规则相信做用Discuz做站的用户是非常多的，那么用到CX采集插件的用户也是很多，自己也用过CX采集插件，个人觉得非常不错，是Discuz插件中一款很不错的采集插件，很适合Dicuz，可以说是类似于织梦，新云等程序后台自带的那种采集插件，不过很多人对于插件的采集规则写法还是很搞不来，自己的水平虽然不高，但是还能勉强写些规则，所以就写个简陋点的教程，新手可以看一看，老手你也别喷我！在cx采集插件中，机器人就是采集器，首先给大家讲一下采集器制作的基本原理和思路！ 1，首先确定要采集的文章列表页面的链接（这里的链接一定要是列表的连接） 2，要确认要采集这个列表页面的内容区域，也就是机器人中的“列表区域识别规则” 3，要确认要采集这个列表页面中的文章的连接，也就是“文章链接URL识别规则” 4，然后，我们就要确认要采集的文章内容范围，也就是“文章内容识别规则” 5，依靠前面4步，我们已经基本确定了要采集的范围，要过滤一些自己不想要的文章题目或者内容，大家可以按实际情况设置“过滤规则” 下面我们的教程正式开始，我以搜瘦网的一个文章列表为例子，给大家讲解；下面我们具体将采集 HYPERLINK /jfff/ysjf/sssp/ /jfff/ysjf/sssp/这个列表页面；第一步：后台—插件—CX采集器—添加机器人基本设置：1.机器人名（即机器人的名称）；2.匹配模式（一般情况选正则表达式）；3.一次采集总数（即一次采集的总个数，按自己的选择设置）；4分批采集数（默认为5，不可太大，否则采集会超时）5，发布时间（可以自定义发布时间，不设置的话以当前的时间为主）第二：设置采集的列表页面 1.采集页面的url设置有两种，一是手工输入，二是自动增长，我们以手工输入为例；添加好链接后，点击下测试，看是否可以链接到； 2.采集页面的编码设置，我们可以点击程序辅助识别，这里要填的是被采集页面的编码，其他3项，按个人需要设置 3.设置列表区域识别规则 ?? 到我们要采集的页面，点击右键，查看源文件，然后找到文章链接url的区域，规则中url区域用[list]表示 ?现在我们就要找到开始区域和结束区域的div或其他标签，文章链接URL一定要在这个区域中，而且是最近的，标签必须要独一无二，比如： table class=newslist cellspacing=5 cellpadding=3 width=100% border=0[list]table width=100% border=0 cellspacing=0 cellpadding=0 style=table-layout:fixed;word-wrap:break-word;word-break:break-all 然后，我们需要点击一下后面的测试，看是否能识别出文章链接url区域 4，文章链接url识别规则 ?规则需要的连接如图我们将·a href= HYPERLINK /2011/5/4/28072.shtml /2011/5/4/28072.shtml 中，引号中的连接替换成[url]，即 ·a href=[url] 填到规则中，然后点击测试文章链接url补充前缀，因为连接中有域名，所以就不需要填了，如果没有，则需要填上域名第三，文章内容页面采集设置 1，文章标题识别规则，点开一篇文章，在文章页面中点击右键，查看源文件，找到这篇文章标题左右最近的标签，文章标题用[subject]，代替以列表中的这篇文章为例； HYPERLINK /2011/5/4/28084.shtml /2011/5/4/28084.shtml 标题规则即：title[subject]/title 填入规则，点击测试大家都看到，识别后的标题，其中后面的并不是我们想要的标题，所以我们要把不需要的过滤掉，现在我们复制不想要的一些标题即（-资讯中心-减肥频道-减肥方法-饮食减肥-瘦身食谱）将他填到下面的文章标题过滤规则中，现在我们测试下，看看是不是得到我们想要的标题了? 2，文章内容识别规则找到源文件中这篇文章区域开始和结尾最近的标签，内容用[message]表示，即内容识别规则为 table border=0 cellpadding=0 cellspacing=1 id=soosou_news_content_show[message]div id=soosou_news_content_editor? 点击测试这样规则就写好了，点击最下面的提交，其他规则按你要采集的网站和个人的需要自己设置。然后，点击开始采集采集完成后，点击查看采集结果然后选择，需要导入到你论坛的哪个版块这样整个采集过程就结束了，教程写的很简陋，但毕竟是个人原