- 1、本文档共19页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
能力
CAPACITY
要求
熟悉网络爬虫。
了解爬虫常用的方法,掌握爬虫环境的搭建。
具有良好的职业道德。
爬虫项目创建
Scrapy环境搭建
采集目标数据项定义
爬虫核心实现
数据存储
爬虫运行
一、Scrapy环境搭建
所需环境:
python 2.7
lxml-3.5.0
pyOpenSSL-0.13.1
pywin32-219
setuptools-0.7
twisted-15.4.0
erface-4.1.3
Scrapy-1.0
搭建时,应先搭建python和其他几个环境,最后安装Scrapy环境。
Scrapy环境搭建
爬虫项目创建
采集目标数据项定义
爬虫核心实现
数据存储
爬虫运行
二、爬虫项目创建
scrapy startproject SinanewsSpider
在windows命令行操作模式下:
其中,SinanewsSpider为所创建的爬虫项目的名称。此时在相应的目录下出现SinanewsSpider爬虫项目。
二、爬虫项目创建
我们建立一个自己的爬虫,文件名为SinanewsSpider.py,爬虫代码则主要是在所建的爬虫文件中
在项目路径下:
在SinanewsSpider→SinanewsSpider路径下,文件items.py、pipelines.py以及settings.py也是后续需要使用的到的文件。
Scrapy环境搭建
采集目标数据项定义
爬虫项目创建
爬虫核心实现
数据存储
爬虫运行
三、采集目标数据项定义
1、根据需要定义数据项
(标题,内容,时间,图片链接地址,网页链接地址,发表时间)
爬虫实例的实现过程:(以采集新浪本地新闻为例)
2、将数据存储到数据库
在MySQL数据库中建立数据表
三、采集目标数据项定义
3、根据以上数据编写代码:
爬虫实例的实现过程:(以采集新浪本地新闻为例)
import scrappy
class SinanewsspiderItem(scrapy.Item): #定义数据项类,从crapy.Item 继承
# define the fields for your item here like:
title = scrapy.Field() #定义标题项
content = scrapy.Field() #定义内容项
pubtime = scrapy.Field() #定义发表时间
imageUrl = scrapy.Field() #定义图片链接地址
Url = scrapy.Field() #定义页面链接地址
定义好之后,就可以在写爬虫代码时,来定义属于这个数item类型的item对象了。
Scrapy环境搭建
爬虫核心实现
采集目标数据项定义
爬虫项目创建
数据存储
爬虫运行
四、爬虫核心实现
# -*- coding: utf-8 -*-1 from scrapy.spiders import Spider2 from scrapy.selector import Selector3 from scrapy import signals4 from scrapy.crawler import CrawlerRunner5 from ject import get_project_settings6 from scrapy.utils.log import configure_logging7 from scrapy.xlib.pydispatch import dispatcher8 from ernet import reactor9 from time import ctime,sleep10 from scrapy.spiders import Spider11 from scrapy.selector import Selector12 from scrapy import signals13 from scrapy.crawler import CrawlerRunner14 from ject import get_project_settings15 from scrapy.xlib.pydispatch import dispatcher16 from ernet import reactor17 from i
文档评论(0)