大数据技术与应用基础第2章数据获取.pptx

下载文档 降价啦

4
0
约5.64千字
约 19页
2019-07-31 发布于辽宁
举报
版权申诉
保障服务

大数据技术与应用基础第2章数据获取.pptx

1、本文档共19页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

能力 CAPACITY 要求熟悉网络爬虫。了解爬虫常用的方法，掌握爬虫环境的搭建。具有良好的职业道德。爬虫项目创建 Scrapy环境搭建采集目标数据项定义爬虫核心实现数据存储爬虫运行一、Scrapy环境搭建所需环境：  python 2.7  lxml-3.5.0  pyOpenSSL-0.13.1  pywin32-219  setuptools-0.7  twisted-15.4.0  erface-4.1.3  Scrapy-1.0 搭建时，应先搭建python和其他几个环境，最后安装Scrapy环境。 Scrapy环境搭建爬虫项目创建采集目标数据项定义爬虫核心实现数据存储爬虫运行二、爬虫项目创建 scrapy startproject SinanewsSpider 在windows命令行操作模式下：其中，SinanewsSpider为所创建的爬虫项目的名称。此时在相应的目录下出现SinanewsSpider爬虫项目。二、爬虫项目创建我们建立一个自己的爬虫，文件名为SinanewsSpider.py，爬虫代码则主要是在所建的爬虫文件中在项目路径下：在SinanewsSpider→SinanewsSpider路径下，文件items.py、pipelines.py以及settings.py也是后续需要使用的到的文件。 Scrapy环境搭建采集目标数据项定义爬虫项目创建爬虫核心实现数据存储爬虫运行三、采集目标数据项定义 1、根据需要定义数据项（标题，内容，时间，图片链接地址，网页链接地址，发表时间）爬虫实例的实现过程：（以采集新浪本地新闻为例） 2、将数据存储到数据库在MySQL数据库中建立数据表三、采集目标数据项定义 3、根据以上数据编写代码：爬虫实例的实现过程：（以采集新浪本地新闻为例） import scrappy class SinanewsspiderItem(scrapy.Item): #定义数据项类，从crapy.Item 继承 # define the fields for your item here like: title = scrapy.Field() #定义标题项 content = scrapy.Field() #定义内容项 pubtime = scrapy.Field() #定义发表时间 imageUrl = scrapy.Field() #定义图片链接地址 Url = scrapy.Field() #定义页面链接地址定义好之后，就可以在写爬虫代码时，来定义属于这个数item类型的item对象了。 Scrapy环境搭建爬虫核心实现采集目标数据项定义爬虫项目创建数据存储爬虫运行四、爬虫核心实现 # -*- coding: utf-8 -*-1 from scrapy.spiders import Spider2 from scrapy.selector import Selector3 from scrapy import signals4 from scrapy.crawler import CrawlerRunner5 from ject import get_project_settings6 from scrapy.utils.log import configure_logging7 from scrapy.xlib.pydispatch import dispatcher8 from ernet import reactor9 from time import ctime,sleep10 from scrapy.spiders import Spider11 from scrapy.selector import Selector12 from scrapy import signals13 from scrapy.crawler import CrawlerRunner14 from ject import get_project_settings15 from scrapy.xlib.pydispatch import dispatcher16 from ernet import reactor17 from i