- 1、本文档共65页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据分析埃森哲观点
2014-5
目录
数据分析即从数据、信息到知识的过程,数据分析需要数学理论、行业经验以及计算机工具三者结合
数学统计学知识
数据分析的基础,将整理、描述、预测数据的手段、过程抽象为数学模型的理论知识
工具支撑
各种厂商开发了数据分析的工具、模块,将分析模型封装,使不了解技术的人也能够快捷的实现数学建模,快速响应分析需求。
行业经验
行业经验可在数据分析前确定分析需求,分析中检验方法是否合理,以及分析后指导应用,但行业特征不同,其应用也不同,因此本文不展开介绍
传统分析
在数据量较少时,传统的数据分析已能够发现数据中包含的知识,包括结构分析、杜邦分析等模型,方法成熟,应用广泛,本文不展开介绍
分析误区
不了解分析模型的数学原理,会导致错误的使用模型,而得出错误的分析结论,影响业务决策,因此在选用分析模型时,要深入了解该模型的原理和使用限制
机器学习
不需要人过多干预,通过计算机自动学习,发现数据规律,但结论不易控制。
数据挖掘
数据挖掘是挖掘数据背后隐藏的知识的重要手段
随着计算机技术发展和数据分析理论的更新,当前的数据分析逐步成为机器语言、统计知识两个学科的交集(备选)
计算机技术
统计学、人工智能
业务数据
数据挖掘
就是充分利用了统计学和人工智能技术的应用程序,并把这些高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的问题。
信息处理
信息处理
信息处理基于查询,可以发现有用的信息。但是这种查询的回答反映的是直接存放在数据库中的信息。它们不反映复杂的模式,或隐藏在数据库中的规律。
传统分析
数据分析
工具
传统分析
在数据量较少时,传统的数据分析已能够发现数据中包含的知识,包括结构分析、杜邦分析等模型,方法成熟,应用广泛,本文不展开介绍
数据分析工具
各种厂商开发了数据分析的工具、模块,将分析模型封装,使不了解技术的人也能够快捷的实现数学建模,快速响应分析需求。
随着计算机科学的进步,数据挖掘、商务智能、大数据等概念的出现,数据分析的手段和方法更加丰富
一系列以事实为支持,辅助商业决策的技术和方法,曾用名包括专家系统、智能决策等
一般由数据仓库、联机分析处理、数据挖掘、数据备份和恢复等部分组成
对数据分析的体系化管理,数据分析的主体依然是数据挖掘
结构分析
分组分析
杜邦分析
预警分析
……
常规分析
揭示数据之间的静态关系
分析过程滞后
对数据质量要求高
商务智能
数据挖掘
大数据技术
数据可视化
统计学和计算机技术等多学科的结合
揭示数据之间隐藏的关系
将数据分析的范围从“已知”扩展到“未知”,从“过去”推向“将来”
从多种类型的数据中,快速获取知识的能力
数据挖掘技术的衍生
大数据时代,展示数据可以更好辅助理解数据、演绎数据
本文在描述数据分析的流程后,重点介绍通用的数据分析方法和主流的应用工具、软件。
随着数据量的不断扩大,数据分析理论正处于飞速发展期,因此本文的方法侧重于基础原理介绍。
数据
分析
目录
概述
1.业务理解(business understanding)
确定目标、明确分析需求
2.数据理解(data understanding)
收集原始数据、描述数据、探索数据、检验数据质量
3.数据准备(data preparation)
选择数据、清洗数据、构造数据、整合数据、格式化数据
4.建立模型(modeling)
选择建模技术、参数调优、生成测试计划、构建模型
5.评估模型(evaluation)
对模型进行较为全面的评价,评价结果、重审过程
6.部署(deployment)
分析结果应用
数据分析标准流程
CRISP-DM为90年代由SIG组织(当时)提出,已被业界广泛认可的数据分析流程。
数据分析框架
业务理解
数据理解
数据准备
建立模型
理解业务背景,评估分析需求
模型评估
应用
理解业务背景:
数据分析的本质是服务于业务需求,如果没有业务理解,缺乏业务指导,会导致分析无法落地。
评估业务需求:
判断分析需求是否可以转换为数据分析项目,某些需求是不能有效转换为数据分析项目的,比如不符合商业逻辑、数据不足、数据质量极差等。
数据收集
数据清洗
数据收集:
抽取的数据必须能够正确反映业务需求,否则分析结论会对业务将造成误导。
数据清洗:
原始数据中存在数据缺失和坏数据,如果不处理会导致模型失效,因此对数据通过过滤“去噪”从而提取出有效数据
数据探索
数据转换
选择方法、工具,建立模型
建模过程评估
模型结果评估
分析结果应用
分析模型改进
探索数据:
运用统计方法对数据进行探索,发现数据内部规律。
数据转换:
为了达到模型的输入数据要求,需要对数据进行转换,包括生成衍生变量、一致化、
文档评论(0)