- 1、本文档共433页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据分析概述1
了解数据分析01案例1:啤酒与尿布案例2:股票走势预测数据分析步骤020304
1了解数据分析
1了解数据分析数据分析是指用适当的统计、分析方法对收集来的大量数据进行分析,将它们加以汇总、理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
1了解数据分析广义的数据分析包括狭义数据分析和数据挖掘。狭义数据分析是指根据分析目的,采用对比分析、分组分析、交叉分析和回归分析等分析方法,对收集的数据进行处理与分析,提取有价值的信息,发挥数据的作用,得到一个特征统计量结果的过程。
2案例1:啤酒与尿布
2“啤酒与尿布”的故事产生于20世纪90年代的美国某超市中,超市管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,这种独特的销售现象引起了管理人员的注意,经过后续调查发现,这种现象出现在年轻的父亲身上,他们在购买尿布的同时,往往会顺便买啤酒犒劳自己。超市管理人员发现了这一独特的现象,开始尝试将啤酒与尿布摆放在相同的区域的促销手段,从而提高了这两件商品销售收入案例1:啤酒与尿布
3案例2:股票走势预测
案例2:股票走势预测3现在市面上各种股票分析软件很多,它们就是通过对某支股票之前涨跌数据经过分析后,给出合理的意见,有最近一年的、最近一周的、最近三天的,数据分析的越多得出结论越趋于合理。当然股票行情由于存在的影响因素居多,比如企业并购、管理层更换、国家政策等,所以股票的数据分析最终只能是一种参考,最终的决定权还在持股人手里,但是这种对于股票的数据分析无疑给玩股票的人提供了更多有效信息。
4数据分析步骤
数据分析步骤4数据分析已经逐渐演化为一种解决问题的过程,甚至是一种方法论。虽然每个公司都会根据自身需求和目标创建最适合的数据分析流程,但是数据分析的核心步骤是一致的。
数据分析步骤41、数据获取数据获取是数据分析工作的基础,是指根据需求分析的结果提取、收集数据。数据获取主要有两种方式:网络数据与本地数据。网络数据是指存储在互联网中的各类视频、图片、语音和文字等信息。本地数据则是指存储在本地数据库中的生产、营销和财务等系统的数据。本地数据按照数据时间又可以划分为两部分,分别是历史数据与实时数据。历史数据是指系统在运行过程中遗存下来的数据,其数据量随系统运行时间的增加而增长;实时数据是指最近一个单位时间周期(月、周、日、小时等)内产生的数据。在数据分析过程中,具体使用哪种数据获取方式,需要依据需求分析的结果而定。
数据分析步骤42、数据预处理数据预处理是指对数据进行数据合并、数据清洗、数据标准化和数据变换,并直接用于分析建模的这一过程的总称。其中,数据合并可以将多张互相关联的表格合并为一张;数据清洗可以去除重复、缺失、异常、不一致的数据;数据标准化可以去除特征间的量纲差异;数据变换则可以通过离散化、哑变量处理等技术满足后期分析与建模的数据要求。在数据分析的过程中,数据预处理的各个过程互相交叉,并没有明确的先后顺序。
数据分析步骤43、分析与建模分析与建模是指通过对比分析、分组分析、交叉分析、回归分析等分析方法,以及聚类模型、分类模型、关联规则、智能推荐等模型与算法,发现数据中有价值的信息,并得出结论的过程。在数据分析过程中,具体使用哪种数据获取方式,需要依据需求分析的结果而定。分析与建模的方法按照目标不同可以分为几大类。如果分析目标是描述客户行为模式的,那么可以采用描述型数据分析方法,同时还可以考虑关联规则、序列规则和聚类模型等。如果分析目标是量化未来一段时间内某个事件发生概率的,那么可以使用两大预测分析模型,即分类预测模型和回归预测模型。在常见的分类预测模型中,目标特征通常为二元数据,如欺诈与否、流失与否、信用好坏等。在回归预测模型中,目标特征通常为连续型数据,常见的有股票价格预测等。
数据分析步骤44、模型评价与优化模型评价是指对于已经建立的一个或多个模型,根据其模型的类别,使用不同的指标评价模型性能优劣的过程。常用的聚类模型评价指标有ARI评价法(兰德系数)、AMI评价法(互信息)、V-measure评分、FMI评价法和轮廓系数等。常用的分类模型评价指标有准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1值(F1Value)、ROC和AUC等。常用的回归模型评价指标有平均绝对误差、均方误差、中值绝对误差和可解释方差值等。模型优化则是指模型性能在经过模型评价后已经达到了要求,但在实际生产环境应用过程中,发现模型的性能并不理想,继而对模型进行重构与优化的过程。多数情况下,模型优化和分析
您可能关注的文档
- 机器人技术教学课件.pptx
- 小学合唱社团教案.docx
- 2024年建筑学《房屋设计及建筑工程》专业知识考试题与答案 .pdf
- 2024年旅游社管理及旅游相关法律知识考试题(附含答案) .pdf
- 2024年吉林省中考地理试卷(含答案) .pdf
- 2024年煤矿采煤机(掘进机)操作证考试题及答案(完整版) .pdf
- 2024年全国护师类之护师(初级)考试专项特训题(附答案)x - 热门试题剖析与讲解 .pdf
- 2024年全国质量员之设备安装质量专业管理实务考试知识串联题(附答案)x - 热门试题剖析与讲解 .pdf
- 2024年吉林省九省联考高考地理模拟试卷 .docx
- 2024年江苏省镇江市中考物理试题(含答案解析) .pdf
- 2024年全国软件水平考试之初级程序员考试基础巩固题(附答案) .pdf
- 2024年北京市安全员A证新版试题库附答案 .pdf
- 2024年江苏省宿迁市中考数学真题试卷 .pdf
- 2024年全国公用设备工程师之专业知识(动力专业)考试知识串联题(附答案) .pdf
- 以新质生产力赋能民营企业转型发展:困境、溯源和对策 .pdf
- 本草纲目和黄帝内经中的养生秘方读书备忘录 .pdf
- 2024-2025学年香港高一英语上册同步检查试卷及答案 .pdf
- (新苏科版)物理九年级上册 第十一章 简单机械和功 单元复习课件 .pdf
- 2024年江西省安全员C证作业考试题库附答案 .pdf
- 2024年河北省安全员B证必威体育精装版试题库附答案 .pdf
文档评论(0)