大数据财务分析课件 2.1数据采集概述.pptxVIP

下载本文档

0
0
约2.42千字
约 18页
2025-03-25 发布于山东
举报
版权申诉

大数据财务分析课件 2.1数据采集概述.pptx

1、本文档共18页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据财务分析爱岗敬业诚实守信坚持准则提高技能廉洁自律客观公正参与管理强化服务

项目二数据采集任务一数据采集概述

爱岗敬业诚实守信一、什么是数据采集？数据采集又称数据获取，是指将数据从数据源采集到可以支持大数据架构环境的过程。

廉洁自律客观公正一、什么是数据采集？数据采集是数据挖掘、数据分析的一个环节，在数据处理过程中是非常基本的操作步骤，也是数据分析道路上的重中之重。再好的分析原理、建模算法，没有高质量的数据都是没有用的。数据采集的质量直接决定了后续的分析是否准确。

坚持准则提高技能采集规模大充分考虑企业规模和数据规模的增长，提前做好数据信息积累的准备。采集范围全数据的数量较多，而且能够代表整体数据的各个部分，数据面足够支撑分析需求。采集维度细数据更重要的是能满足分析需求。灵活、快速自定义数据的多种属性和不同类型，从而满足不同的分析目标。采集时效准提高数据采集的及时性，从而提高后续数据应用的及时性。二、数据采集的特征

参与管理强化服务三、数据采集的数据源内部数据外部数据数据源数据类型结构化数据半结构化数据非结构化数据

爱岗敬业诚实守信三、数据采集的数据源

廉洁自律客观公正四、数据采集的工具

坚持准则提高技能四、数据采集的工具爬虫的概念Python是一门非常适合爬虫的编程语言，它能提供许多与爬虫相关的库（Requests库），可以高效实现网页爬取，并且可以用极短的代码完成网页标签过滤功能。爬虫（网络爬虫的简称），是一种按照一定规则，自动抓取网络信息的程序。爬虫可以理解为一只在网络上爬行的蜘蛛。互联网就像一张大网，爬虫便是在这张网上爬来爬去的蜘蛛。如果遇到猎物（即所需的资源），它就会将其抓取下来。所以爬虫的目的在于将目标网页数据下载至本地，以便进行后续的数据分析。

在日常工作学习中，如果经常需要浏览网页上的信息，只需要打开浏览器，输入网址即可浏览网页上的文字、图片，那么，这一过程是如何实现的呢？参与管理强化服务四、数据采集的工具爬虫的原理

爱岗敬业诚实守信四、数据采集的工具知识点播简单来说，爬虫就是模拟用户浏览网页的操作，通过模拟浏览器像网站发送请求，获取资源后提取有用的数据并保存。所以，原则上只要浏览器能做的事情，爬虫都能做到。从理论上讲，网络上的资源都可以获取，爬取数据类型包括HTML文档、json格式化文本、二进制文件（图片和视频）以及其他各类数据。json是一种轻量级的数据交换格式，易于编写和阅读，也易于机器解析，是理想的数据交换语言。Json文本格式类似于Python中的字典，在爬虫中使用非常广泛。HTML（超文本标记语言）是用来描述网页的一种语言。用户看到的是网页实质是由HTML代码构成的。

廉洁自律客观公正四、数据采集的工具爬虫的基本流程

坚持准则提高技能四、数据采集的工具HTTP协议例如：我们看到的网址为,但在浏览器中输入网址后，会发现它变成了.这是因为所有的网页传播都必须遵守HTTP协议，那可以看到这里是https,https简单理解就是http的基础上，增加了对网站服务器的身份认证，同时保护了交换数据的隐私与完整性。HTTP是一种基于“请求与响应”模式的，无状态（每次请求都是独立的，同一个客户端的这次请求和上次请求没有对应关系）的应用层协议，采用URI作为定位网络资源的标识符。在访问网页时，服务器把网页传给浏览器，实际上就是把网页的HTML代码发送给浏览器，让浏览器显示出来，而浏览器和服务器之间的传输协议就是HTTP.

参与管理强化服务四、数据采集的工具URL爬虫爬取数据时，必须有一个目标URL才可以获取数据，URL是爬虫获取数据的基本依据。一个网页对应一个唯一的URL，网页中加载的图片、视频、文件也同样对应一唯一的URL，在一个HTML页面中可能存在多个URL，想要获取一个页面内容所有URL链接，则需在爬取网页后，利用Python解析库对爬取的页面进行解析，提取所有URL.URL是统一资源定位符，也就是网址。URL是对互联网上资源位置和访问方法的一种简洁的表示，是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL，它包含的信息指出文件的位置以及浏览器应该怎么处理它。

爱岗敬业诚实守信方法说明GET请求获取URL位置的资源HEAD请求获取URL位置资源的响应消息报告，即获得资源的头部消息POST请求向URL位置的资源附加新的消息PUT请求向URL位置存储一个资源，覆盖原URL位置的资源PATCH请求局部更新URL位置的资源，即改变该处资源的部分内容DELETE请求删除URL位置存储的资源GET，HEAD是从服务器获取信息到本地，POST，PUT，PATCH，DELETE是从