云计算导论(国家) 6.6:数据的可视化 6-6-2利用Python进行数据可视化.docx

云计算导论(国家) 6.6:数据的可视化 6-6-2利用Python进行数据可视化.docx

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
PAGE1 / NUMPAGES8 文档题目 利用Python进行数据可视化 作为非专业的数据分析人员,在平时的工作中也会遇到一些任务:需要对大量进行分析,然后得出结果,解决问题。所以了解基本的数据分析流程,数据分析手段对于提高工作效率还是非常有帮助的。 6.2.1 数据分析基本流程 首先都是存在一个要解决的问题,主要问题和预期分析目标,简单来讲就是对问题进行定义。 然后才是开始收集数据、数据清洗、数据建模、数据展现、优化和重复,最后是报告撰写。 1. 明确分析目的和思路:在进行数据分析之前,首先考虑的应该是“为什么要展开数据分析?我要解决什么问题?从哪些角度分析数据才系统?用哪个分析方法最有效?”,而不是“这此分析需要出多少页报告?打算用高级分析算法试试”这样的思维方式。只有明确了分析目的和思路,数据分析的方向才不会跑偏,才能得出有意义的结论。 2. 数据收集:明确了分析目的,接下来就是开工收集数据了。数据来源有很多,但是确保数据可信度等很重要。 3. 数据处理:包括数据清洗、转换、分组等处理方法。我们拿到的数据,通常情况下是不可直接使用的,比如数据有丢失、重复、有录入错误或存在多余维度等情况。只有经过处理后的数据才可以使用。提高数据质量,定义分析需要的数据结构。 4. 数据分析:在明确分析思路的前提下,选用适合的分析方法对处理后的数据进行分析。创建不同数据模型,然后不停的优化和重复。 5. 数据展现:将分析结果用图表来展现。所以数据展现阶段,你需要思考“采用这个图表,能否清晰的表达出分析结果?我想表达的观点是否完全展示出来了?”这是本文重点关注的点。 6. 报告撰写:将数据分析的整个过程和结果,以书面的形式向他人说明。需要将分析目的、数据来源、分析过程、分析结论和建议等内容展现在报告中。 6.2.2 常用统计方法 ?除了可视化展示数据分析结果,一些统计描述也很有必要。因此,罗列一些简单的统计性描述概念。 1. 使用Numpy 一般性的数据进行简单的平均值、最大值、最小值、求和计算,除此之外还有如下的计算: 标准误差:表示样本平均数和总体平均数的变异程度,可以用来反映结果精密度。 标准差(均方差):计算一组数据偏离均值的平均幅度,不管这组数据是样本数据还是总体数据 方差:在概率论和统计方差衡量随机变量或一组数据时离散程度的度量 中位数:对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。 众数:在统计分布上具有明显集中趋势点的数值,代表数据的一般水平(众数可以不存在或多于一个)。 如下代码给出了一个计算的实例: import numpy as np from scipy.stats import mode array = np.array([1, 3, 4, 23, 565, 1, -8, 123, 111, 54, 45.0, 3, 3]) print 求和:, array.sum() print 最大值:, array.max() print 最小值:, array.min() print 条数:, array.size print 标准差:, array.std()偏离平均值的幅度 print 平均值:, array.mean() print 中位数:, np.median(array) print 方差:, np.var(array)这组数据离散程度 print 众数:, mode(array).mode, mode(array).count 结果如下: 求和: 928.0 最大值: 565.0 最小值: -8.0 条数: 13 标准差: 148.326323439 平均值: 71.3846153846 中位数: 4.0 方差: 22000.6982249 众数: [ 3.] [3] 关于NumPy和SciPy常用统计方法,参考《 使用Python进行描述性统计》。 6.2.3 常用图表 数据可视化是分析数据的优秀工具,好的可视化是会讲故事的。如图6-2-1所示,这张图来源于:《数据可视化:你想知道的经典图表全在这》。他根据你想要展示的内容进行划分,只要对你的展示内容分门别类就可以找到合适的图表。 维度:数据分析本质是各种维度的组合,维度可以用时间、数值、文本等表示。 数据通常包含五种关系:构成、比较、趋势、分布及联系。参照:《如何选择正确的图表类型》 构成:关注每个部分所占整体的百分比,适用饼图。 比较:展示事物的排列顺序,首选条图。 趋势:常见的时间序列关系,适用线图能更好的展示变化。 分布:关心各数值范围包含多少项目,适用柱图。 联系:查看两个变量之间关系,适用气泡图。 图6-2-1 数据可视化的经典图表 Python可视化工具繁多,但没有一个能覆盖所有需求。所以需要针对需求,决定

文档评论(0)

WanDocx + 关注
实名认证
内容提供者

大部分文档都有全套资料,如需打包优惠下载,请留言联系。 所有资料均来源于互联网公开下载资源,如有侵权,请联系管理员及时删除。

1亿VIP精品文档

相关文档