- 1、本文档共24页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
火车采集器帮助文档 --> 采集腾讯新闻发布DedeCMS
火车采集器帮助文档
该采集实例是采集腾讯国内新闻,然后将采集的结果Web发布到DedeCMS 5.7上去。目录起始网址/newsgn/zhxw/shizhengxinwen.htm,我们要采集5个列表的新闻,采集新闻的标题,内容,作者,时间,出处。我们按采网址,采内容,发内容的步骤依次操作,以下是具体操作过程。
首先我们新建任务,出现了任务窗口,我们点击起始网址中的添加
在出现的起始网址,添加单条网址,并点击”添加“按钮。
我们在网页中,通过分析,发现国内新闻的第二页及以后都是以数字递增的方式显示的,我们现在添加等差数列形式的网址
添加完成后,我们点击完成,就可以看到效果了。
我们按图中点击添加,出现“添加多级网址采集规则”,我们选择了新闻列表的区域代码。区域代码设置熟悉火狐的朋友可以使用Firebug扩展快速定位。
我们填写一下获取的代码的起始和结束部分,点击保存。
现在多级网址就是如下界面了,我们点击测试网址采集“按钮.“
最终我们获取了所有正确的网址。这里的例子是比较简单,实际中可能要设置不得包含等条件,使用POST等方式获取网址。
我们双击某个网址,即可以进行内容采集规则设置。注意,下图中的使用提示部分新手是必看的,不然一些操作就不会知道。
采内容部分,页面内容标签定义是非常重要的,我们首先点击测试,查看默认规则下获取的结果如下
对于标题标签,最后 _新闻_腾讯网 这几个字是不需要的,要过滤掉,我们双击标题那一行,可以打开标题采集规则的设置界面。
我们点击数据处理那部分的添加按钮,然后选择内容替换
填写要替换的字符串,可以替换为空
保存以后,数据处理列表就有一条记录。如果我们要做多次数据处理,可以依次的添加处理的动作。也可以对处理的次序点击上图中的下下按钮进行调整。双击数据处理列表,可以对选中的记录进行编辑。添加成功的结果如下
我们点击 标签编辑 右下角的确定,就可以保存该设置了。我们点击测试,可以看到那几个字符已经没有了。我们继续设置内容的标签。在测试按钮上右键,选择获取网页源代码
可以打开源码查看器,点击开始查看按钮就可以下载网页源代码,我们查找这条新闻的开始和结束区域代码。查找方法很简单,就是找开始的字符串和结束的字符串,然后在源代码中查找分析。
在内容的前边的代码是 div id=Cnt-Main-Article-QQ bossZone=contentP style=TEXT-INDENT: 2em ,我们再找一下后边的结束字符串。然后就可以利用前后截取的方式来采集数据了。结束字符串我们找到的是 /P/div
经测试,获取的内容正确。现在我们再提取一下其它的标签内容。
注意时间标签我们要将年月换成-,日替换为空。
处理过程
最后的采集结果是
以上只是完成了一个页面的测试,我们需要对多个典型页面进行测试,直到认为规则没有问题。以上是默认的编辑页面,我们点击切换到无限级多页规则编辑模式看一下。测试结果如下:
我们可以看到结果的显示方式不一样的。这里每个标签的结果都是以列表形式列出,如果您有某个标签使用了循环匹配采集,则采集的多个结果会在这里。比如我们添加一个相关阅读,获取和该新闻有关联的几个新闻的标题。
测试结果如下,我们可以看到相关阅读是有三个值的。
这里需要说明的是,火车采集器的规则编辑是基于这个无限级多页规则编辑模式的。只是增加了一些额外的处理,比如刚才的相关阅读,我们要将其在一个记录中合并,应这样设置。
如果多个标签是循环的并要每个循环记录添加为新记录,可以选择添加为新记录。
以上为规则制作,现在我们设置发布内容。我们最常用的方式是Web发布,所以本次教程只使用Web发布。Web发布配置我们在Web发布模块制作部分已经讲过了,所以我们现在调用已经制作好的模块发布。我们点击“添加Web发布配置
点击确定,则该发布配置就会添加,默认的是默认的栏目,如果我们要修改发布的栏目,需点击 ”修改栏目“。注意,记得选上启用.
在弹出的界面中刷新并选择一个新的栏目
Web发布这块就算是完成。现在我们看“文件保存及部分高级设置”这块,如果我们在标签中设置了下载文件,则可以在这里设置ftp上传和本地文件保存目录。比如我们设置内容标签要下载图片。其中,我们将文件保存在一个按年月日这样结构的目录中去。程序会自动的去建这些目录的。
然后我们设置文本本地保存目录
按上面的设置,最后图片会下载成形如 E:\upload\2012\05\29\原文件名 这样的格式。在采集完的结果中显示的效果为
如果我们使用ftp上传图片到服务器上,可以启用ftp上传将文件上传上去。
现在采集的设置都已经完成,我们开始采集
采集完网址采内容
采完内容开始发布内容
发布完成了。我们打开网站后
文档评论(0)