网站大量收购闲置独家精品文档,联系QQ:2885784924

3.3.2 采集流程与准备《财务大数据分析》教学课件.pptxVIP

3.3.2 采集流程与准备《财务大数据分析》教学课件.pptx

  1. 1、本文档共30页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
财务大数据分析第三章 大数据采集 前言/PREFACE端上数据12开放数据3主观数据4其他平台数据5物理数据6数据库数据 03上市公司数据采集采集流程与准备 1网站数据采集采集流程与准备2数据采集的准备流程3上市公司数据采集实战 前言/PREFACE开放给所有人的数据,比如网页的内容数据,或者特定行业的公开数据。是一种可以使得开发者自动化地,系统化地收集Web端数据的技术。开放数据爬虫技术 一、网站数据采集 在进行企业财务分析的时候,不仅需要分析自身的财务数据,同时还需要分析同行业企业的财务数据作为比对。因此,采集外部网站公布的财务数据成为了一种重要分析手段。XBRL是一种XML为基础的财务报表数据规范,上交所通过推行XBRL在上市公司中应用,不仅可以高效、规范地让企业填报财报数据,同时还能即时更新发布财报数据。采集流程与准备 集搜客模拟用户:模拟真实用户访问网站的方法,自动化访问网页,并将访问的网页中定义要采集的数据进行采集。特点:静态HTML页面采集技术要求:Xpath等少量编程知识效率:低神箭手模拟请求:爬取动态接口,向网站接口发送模拟请求,并获取接口返回的数据。特点:动态数据采集技术要求:Python、Web前端采集效率:高一、网站数据采集采集流程与准备 观测目标采集网站的信息数据库表结构设计采集脚本逻辑设计二、数据采集的准备流程采集流程与准备 列表页内容多为标题带链接的形式出现,通常为文字列表、图片列表、文字卡片等形式,本节课的任务就是上交所仿真网站的报告列表页。详情页为每条采集数据的主要内容页,通常包括文字、图文、图片、视频、表格等内容,本节课的任务中就是一家上市公司的某类报告页。观测目标采集网站的信息二、数据采集的准备流程采集流程与准备1 23综合考虑要采集的数据,思考如何将一份报告的数据存储进关系型数据库中的二维表中。数据库表结构设计核心是设计采集数据的循环层级顺序,然后利用SQL数据库语言进行数据储存。采集脚本逻辑设计二、数据采集的准备流程采集流程与准备 例题:表设计练习假设有三家企业ABC,现在需要采集这三家企业的每个季度的财务报表信息,请问你会选择那种方案?方案一一个企业为一张表每个季度为一行记录每个报表指标为一个字段报表维度(如利润表)为一个字段方案二一类报表为一张表(如利润表)每个企业的每个季度为一行记录每个报表指标为一个字段报表年份、报表季度均为一个字段方案三一个年份的一个季度为一张表每个企业的当季报告为一行记录每个报表指标为一个字段报表维度(如利润表)为一个字段二、数据采集的准备流程采集流程与准备 方案1,表格数量少,但是字段过多。如果是多家企业,需要频繁建表。方案3,表格数量会很多。例如每家公司1年就有4张表,3年3家公司就有36张表方案二为最优方案二、数据采集的准备流程采集流程与准备 方案二为最优方案表的数量最少。表相对固定,不用频繁建表。更新数据只用按照维度进行采集更新即可方案二一类报表为一张表(如利润表)每个企业的每个季度为一行记录每个报表指标为一个字段报表年份、报表季度均为一个字段二、数据采集的准备流程采集流程与准备 三、上市公司数据采集实战采集流程与准备(一)查看上交所网页内容3点击上方的财报类型筛选框,选择对应的财报季度和年份后确定2点击任意财报,进入财报详情页面1查看列表页面4点击切换基本信息表、利润表等表格 三、上市公司数据采集实战采集流程与准备(一)查看上交所网页内容步骤1:查看列表页面 三、上市公司数据采集实战采集流程与准备步骤2:点击任意财报,进入财报详情页面(一)查看上交所网页内容 三、上市公司数据采集实战采集流程与准备步骤3:点击上方的财报类型筛选框,选择对应的财报季度和年份后确定(一)查看上交所网页内容 三、上市公司数据采集实战采集流程与准备步骤4: 点击切换基本信息表、利润表等表格(一)查看上交所网页内容 三、上市公司数据采集实战采集流程与准备(二)单企业财报数据采集任务说明:采集江西铜业2018年年报数据1. 查看示例代码,找到python脚本所引入的库;2. 在code里修改代码,定义要采集的企业为江西铜业,输入该企业的以下信息:(交易代码、企业简称、首字母);3. 在year列表中修改采集的报表年份为2018;4. 在report_period_id里定义要采集的报表季度(5000为年报);5. 点击“运行”按钮;6. 等待运行日志提示数据采集完成后,点击“查看数据”,查看数据内容是否合适。 三、上市公司数据采集实战采集流程与准备(二)单企业财报数据采集步骤1:查看示例代码,找到python脚本所引入的库; 三、上市公司数据采集实战采集流程与准备步骤2:在code里修改代码,定义要采集的企业为江西铜业,输入该企业的以下信息:(交易代码、企业简称、首

您可能关注的文档

文档评论(0)

臂老师 + 关注
实名认证
文档贡献者

教师资格证持证人

臂老师,祝您一臂之力,成功(公)上岸!

领域认证该用户于2023年09月27日上传了教师资格证

1亿VIP精品文档

相关文档