清华大学《数据模型与决策》DMD(孙静)---课程精髓及案例分析流程.docVIP

清华大学《数据模型与决策》DMD(孙静)---课程精髓及案例分析流程.doc

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

DMD课程精髓:

从管理者的角度去分析问题,不要陷入数据处理中;

数据分析需要和经验相匹配,数据为管理和决策提供服务。

东西方的差距从15世纪开始拉大:

西方:开始使用阿拉伯数字;(理性-科学性)

东方:仍然采用文字这种不精确的描述;(人性-灵活性)

5大知识点:

DecisionAnalysis(决策分析)

决策树—回溯的方法使“复杂问题简单化”、提炼问题

who、where、when、why、what、how

Sampling(抽样)

从个体抽样共性、得出普遍规律的方法论。(自然科学中的哲学)

“断章取义”导致统计学可以变化出完全不同的结果。

理论的结果是基于“随机”的抽样。

精确与粗燥的哲学:更加粗燥的t分布,得出的结果可能是更加精确的预测结果。

实际的生活中,人们往往对μ有预期,却对σ没有预期,导致了很多问题。

Simulaiton(仿真)

减轻抽样需要投入的时间和经历,结果依赖于“可以信赖的假设”

Regression(回归)

回归反映的是量变因素,对于质变必须从管理上解释。

Optimization(优化)

模型的准确性只对自变量范围内有意义。

DMD案例流程(供参考):

案例背景:

5W+1H

who

when

where

what(要干什么)

why(待分析的原始数据或者解决途径)

how(怎样做,D.T)P25-规范的决策树

keypoint:(---总体框架)

有用的信息和数据(why);

提炼问题(what:Unkowninformationandquestion);

初步分析:

根据决策树建模,即通常是分析框架、一个公式,或者一个目标

keypoint:(清晰分析思路―注意不要陷在数据里,有些可能无解,但要写明原因。)

决策思路(D.T)说明是否做敏感性分析,是否另行设计决策树找出其他的解决办法,或从其他角度重新看这个问题-把复杂的问题分解成若干问题,简化问题;

列出具体的分析思路和步骤;

在思路基础上,找出相关需要的变量、函数和相互间的关系;

例子:(最后一个书商案例)

决策变量:

P书Q页数Q印刷Q销售

目标函数:∏=销售收入-总成本=P书×Q销售-f总成本(Q页数,Q印刷)

约束:

1毛利率=1-直接成本/销售收入

=1-g直接成本(Q页数,Q印刷)/(P书×Q印刷)=40%

225=P书=35

3Q销售=Q印刷

4所有变量=0

P书 ―――需优化求解

Q页数 ―――已知条件

Q印刷 ―――需回归或仿真

Q销售 ―――需回归或仿真

f总成本(Q页数,Q印刷) ―――需回归

g直接成本(Q页数,Q印刷) ―――需回归

数据处理:

keypoint:(根据初步分析思路,进行数据处理,找出可以符合管理者角度意愿的证据。)

DMD的5个主要概念(决策分析、抽样、仿真、回归和优化)都可能会用到,基本概念和适用范围要基本明确。

根据分析思路,逐个把数据处理过程简单介绍,有些东西即使不会或者没时间做也要写上(比如mean,SD,相关系数,变异系数,直方图,散点图等等)。

如果有可能,指出数据的分布特性(如超几何、均匀、指数、柏松分布)

实际考试中,可能没有时间做特别细致和准确地分析,能像惟锲那样在很短的时间内进行透彻地回归分析太难了,所以把做法和思路写清楚最重要。

可能用到工具包括:

抽样:

不要误用总体;

抽样数量应该不少于30;二项分布应该同时满足n×p=5和n×(1-p)=5,否则应该质疑正态分布特性;

实际操作可以用直方图看看其是否满足正态分布;

例子:(最后一个书商案例)

对邮件抽样调查的结果应该产生质疑,比如他的总体可能有问题。

仿真——在样本缺乏,但有样本分布规律时使用仿真,随机产生数据作为分析样本

(excel:工具-数据分析-随机数发生器)

随机数1000;

对产生后的随机数分析均值,标准差,置信区间等。

回归——适用于找出变量之间的相互关系、影响销售的重要因素等等

(excel:工具-数据分析-回归)

回归最适合呈现的是“可以量变”的规律,对于质变的规律必须另辟蹊径。

n=5*(k+2),n是样本数,k是自变量数目;

首先明确因变量和自变量,通过相关系数大致观察规律;

(excel:工具-数据分析-相关系数)

明确一些关键回归值的意义:(SF\R2\P-VALUE)

SF:小于10%代表回归效果显著

R2:代表总波动中有多少可以用回归模型进行解释,越大越好

P-VALUE:大于10%说明有多重共线性的可能,需要删除,但删除要谨慎,删除前先看相

文档评论(0)

book_zhj + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8002066073000063

1亿VIP精品文档

相关文档