- 1、本文档共38页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第1章数据的管理与探索;1.1学习目标;1.2金融数据管理的挑战与机遇;1.3数据的存储与使用;1.3.2数据存储的格式
在实际操作中,可以将数据存入各种格式的数据之中,如EXCEL中的CSV和XLSX格式,数据提供商需要程序接触的JOSN文件,大数据存储的Parquet格式。
表1.1将以上几种格式进行了比较:
1、较小的数据常用CSV和XLSX格式保存,阅读这些文件非常简单直接,但最大的问题是读写速度较慢以及其占用的存储空间较大。
2、当数据量巨大时,我们应将数据以Parquet格式保存,其优势在于易于存储与读写。
3、JSON在网络应用中有着非常广泛的应用,由于其格式清晰,我们非常容易能使用程序来抓去这些数据中的关键信息。但是因为该文件以文本形式存储,因此读写速度往往也不是最优。;文件类型;1.4Pandas与Matplotlib简介;1.4.1.1Pandas的弱点
1、Pandas一般来说需要将一个文件中的所有数据都读入内存才能对其进行高效操作。因此,如果有的数据集过大,那么Pandas将无法高效处理这些数据。
2、另外,在数据处理过程中常用的SQL语言在Pandas没有相应的支持。如果需要在Pandas中使用SQL,我们必须安装额外的程序包。;1.4.2数据可视化程序库简介;1.4.2.2Seaborn简介
Seaborn是基于matplotlib的Python数据可视化库,提供了一个高级接口来绘制吸引人且信息丰富的统计图形。
Seaborn的目标是使可视化成为探索和理解数据的核心部分。它具有内置主题、支持多种统计图表类型、与Pandas数据框架良好集成、自动统计估计和错误条显示、分面功能以及可高度自定义,非常适合进行统计分析和数据呈现。
;1.5程序:数据的管理以及初步探索;我们用df.head(5)来现实df这个数据帧中的前五行。其中,第一列数字是这个数据帧的索引。这个索引便于我们找到数据的位置。该索引是从0开始计数的。这个数据中的每一个行对应的是一个用户。每一列对应的是我们存储的关于该用户的信息。;1.5.1.1.1数据帧的基本信息接下来,我们来检验一下数据量具体多少。并且,数据帧中的变量分别是以什么格式存储的。
print(df.shape)
print(df.dtypes)
结果如右图:
用df.shape来查看数据帧的大小。(10,4)说明这个数据帧中有10行,4列,即???10个样本,每个样本有四个变量。
df.dtypes说明了数据分别是什么格式。其中income是用int64(整数)存储。stock是用float64(实数)格式存储。其他数据是object格式。这种格式一般是用来存储字串。
;1.5.1.1.2获取变量信息如果我们只要使用一个变量,那么我们可以用方括号来查看一个变量。
stock=df[stock]
print(stock)
结果如下图:
;1.5.1.1.3获取行信息如果我们需要查看一个用户,那么我们可以续用.iloc[索引]来查看一行。
user_0=df.iloc[0]
print(user_0)
结果如下图:
;1.5.1.1.4获取子数据集我们也可以筛选数据。例如,下面我们将性别为男性的用户筛选出来,存入一个新的数据帧。
df_male=df[df[gender]==M]
print(df_male.head())
结果如下图:
;我们也可以叠加选择条件。例如,我们需要选取用户性别为男,并且收入超过100000的用户。注意,因为我们需要使用两个筛选条件,此时我们需要使用逻辑操作(也就是and),以表示我们需要两个条件同时达到才会选入。
df_male_highinc=df[(df[gender]==M)(df[income]100000)]
print(df_male_highinc)
结果如下图:
;1.5.1.1.5生成新变量我们也可以通过数据帧中的两个或多个变量来生成新的变量。比如,我们可以生成投资组合与收入的一个比例(income/stock)。
df[income_stock_ratio]=df[income]/df[stock]
print(df.head(5))
结果如下图:
;1.5.1.1.6数据的初步探索我们将用pandas的内置功能,对数据进行初步探索。首先,我们先对变量的平均值,标准方差,最小值最大值等一系列信息进行总结。
df[income].describe()
结果如下图:
;我们可以分别对男性用户以及女性用户的信息进行总结。在此,我们需要用到groupby这个方法。groupby可以帮助我们将数据放到不同的子集中。同时,agg方法帮我
您可能关注的文档
- 《金融大数据分析》-课件 第 11 章 监督学习的小结.pptx
- 《金融大数据分析》-课件 第 12 章 主成分分析.pptx
- 《金融大数据分析》-课件 第 19 章.pptx
- 《金融大数据分析》-课件 第2章 数学以及统计学回顾.pptx
- 《金融大数据分析》-课件 第3章 线性回归.pptx
- 《金融大数据分析》-课件 第4章 逻辑回归.pptx
- 《金融大数据分析》-课件 第5章 其他基础监督学习方法.pptx
- 《金融大数据分析》-课件 第6章 模型验证.pptx
- 《金融大数据分析》-课件 第7章模型选择与正则.pptx
- 《金融大数据分析》-课件 第8章 决策树.pptx
- DB3411_T 0009-2022 池河糕小作坊生产规范.docx
- DB3410_T 21-2023 多花黄精病虫害绿色防控技术规程.docx
- DB3415_T 17-2021 茯神栽培技术规程.docx
- DB3415_T 20-2021 山区茶树气象灾害指标划分技术规范.docx
- DB3415_T 24-2022 六安瓜片茶 手工炒制加工技术规程.docx
- DB3415_T 25-2022 六安瓜片茶 机械炒制加工技术规程.docx
- DB3415_T 58-2023 预制菜包装、贮存、运输规范.docx
- DB3417_T 014-2022 池州特色小吃 贵池小粑.docx
- DB3418_T 014-2022 电机检验检测机构后勤服务规范.docx
- DB3418_T 015-2022 电机检验检测机构客户服务规范.docx
最近下载
- 生物质制备绿色甲醇的可行性探讨.docx VIP
- JJG 1114-2015 液化天然气加气机检定规程.pdf
- 脑梗塞的护理查房 PPT【28页】.pptx VIP
- (2025春新版)部编版七年级下册道德与法治全册PPT课件.pptx
- 2025年晋城职业技术学院单招职业技能测试题库及答案一套.docx
- 2023年广东深圳图书馆招考聘用员额工作人员16人笔试历年难易错点考题荟萃附带答案详解.docx
- GB50243-2016 通风与空调工程施工质量验收规范.pdf
- 绿色土壤修复技术的市场潜力与应用.docx
- 2025年朔州陶瓷职业技术学院单招职业倾向性考试题库完整.docx VIP
- 三坐标考试试题和答案.docx
文档评论(0)