- 1、本文档共16页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
PAGE1 / NUMPAGES8
文档题目
利用Python进行数据可视化
作为非专业的数据分析人员,在平时的工作中也会遇到一些任务:需要对大量进行分析,然后得出结果,解决问题。所以了解基本的数据分析流程,数据分析手段对于提高工作效率还是非常有帮助的。
6.2.1 数据分析基本流程
首先都是存在一个要解决的问题,主要问题和预期分析目标,简单来讲就是对问题进行定义。
然后才是开始收集数据、数据清洗、数据建模、数据展现、优化和重复,最后是报告撰写。
1. 明确分析目的和思路:在进行数据分析之前,首先考虑的应该是“为什么要展开数据分析?我要解决什么问题?从哪些角度分析数据才系统?用哪个分析方法最有效?”,而不是“这此分析需要出多少页报告?打算用高级分析算法试试”这样的思维方式。只有明确了分析目的和思路,数据分析的方向才不会跑偏,才能得出有意义的结论。
2. 数据收集:明确了分析目的,接下来就是开工收集数据了。数据来源有很多,但是确保数据可信度等很重要。
3. 数据处理:包括数据清洗、转换、分组等处理方法。我们拿到的数据,通常情况下是不可直接使用的,比如数据有丢失、重复、有录入错误或存在多余维度等情况。只有经过处理后的数据才可以使用。提高数据质量,定义分析需要的数据结构。
4. 数据分析:在明确分析思路的前提下,选用适合的分析方法对处理后的数据进行分析。创建不同数据模型,然后不停的优化和重复。
5. 数据展现:将分析结果用图表来展现。所以数据展现阶段,你需要思考“采用这个图表,能否清晰的表达出分析结果?我想表达的观点是否完全展示出来了?”这是本文重点关注的点。
6. 报告撰写:将数据分析的整个过程和结果,以书面的形式向他人说明。需要将分析目的、数据来源、分析过程、分析结论和建议等内容展现在报告中。
6.2.2 常用统计方法
?除了可视化展示数据分析结果,一些统计描述也很有必要。因此,罗列一些简单的统计性描述概念。
1. 使用Numpy
一般性的数据进行简单的平均值、最大值、最小值、求和计算,除此之外还有如下的计算:
标准误差:表示样本平均数和总体平均数的变异程度,可以用来反映结果精密度。
标准差(均方差):计算一组数据偏离均值的平均幅度,不管这组数据是样本数据还是总体数据
方差:在概率论和统计方差衡量随机变量或一组数据时离散程度的度量
中位数:对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。
众数:在统计分布上具有明显集中趋势点的数值,代表数据的一般水平(众数可以不存在或多于一个)。
如下代码给出了一个计算的实例:
import numpy as np
from scipy.stats import mode
array = np.array([1, 3, 4, 23, 565, 1, -8, 123, 111, 54, 45.0, 3, 3])
print 求和:, array.sum()
print 最大值:, array.max()
print 最小值:, array.min()
print 条数:, array.size
print 标准差:, array.std()偏离平均值的幅度
print 平均值:, array.mean()
print 中位数:, np.median(array)
print 方差:, np.var(array)这组数据离散程度
print 众数:, mode(array).mode, mode(array).count
结果如下:
求和: 928.0
最大值: 565.0
最小值: -8.0
条数: 13
标准差: 148.326323439
平均值: 71.3846153846
中位数: 4.0
方差: 22000.6982249
众数: [ 3.] [3]
关于NumPy和SciPy常用统计方法,参考《 使用Python进行描述性统计》。
6.2.3 常用图表
数据可视化是分析数据的优秀工具,好的可视化是会讲故事的。如图6-2-1所示,这张图来源于:《数据可视化:你想知道的经典图表全在这》。他根据你想要展示的内容进行划分,只要对你的展示内容分门别类就可以找到合适的图表。
维度:数据分析本质是各种维度的组合,维度可以用时间、数值、文本等表示。
数据通常包含五种关系:构成、比较、趋势、分布及联系。参照:《如何选择正确的图表类型》
构成:关注每个部分所占整体的百分比,适用饼图。
比较:展示事物的排列顺序,首选条图。
趋势:常见的时间序列关系,适用线图能更好的展示变化。
分布:关心各数值范围包含多少项目,适用柱图。
联系:查看两个变量之间关系,适用气泡图。
图6-2-1 数据可视化的经典图表
Python可视化工具繁多,但没有一个能覆盖所有需求。所以需要针对需求,决定
您可能关注的文档
- 影视广告设计 影视广告设计 2_0327成人重疾险拍摄脚本.docx
- 应急科技 地震救援技术 教学教案:地震救援技术.docx
- 应急科技 地震应急通讯 教学教案:地震应急通讯.docx
- 应急科技 火灾监测系统 教学教案:火灾监测系统.docx
- 优秀毕业生作品 建钢131 建钢131-29-陈燕春-住宅楼工程.docx
- 优秀毕业生作品 建钢142 建钢142 02 王雪英 某精矿预配料室详图深化设计.doc
- 优秀毕业生作品 建钢142 建钢142 -龙宇坤-18某公司办公楼施工-施工组织设计.docx
- 优秀毕业生作品 建钢142 建钢142-17-刘鑫-某市商业裙楼工程建设项目施工组织设计.docx
- 优秀毕业生作品 建钢142 建钢142班-05-陈光达-某市某隧道施工建设工程.doc
- 优秀毕业生作品 建钢143 建钢143班-02号-乔凌秀-某学院住宅楼施工组织设计-最终稿.doc
文档评论(0)