清华大学《数据模型与决策》DMD(孙静)---课程精髓及案例分析流程.docVIP

下载本文档

0
0
约2.83千字
约 4页
2024-09-29 发布于北京
举报
版权申诉

清华大学《数据模型与决策》DMD(孙静)---课程精髓及案例分析流程.doc

1、本文档共4页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

DMD课程精髓：

从管理者的角度去分析问题，不要陷入数据处理中；

数据分析需要和经验相匹配，数据为管理和决策提供服务。

东西方的差距从15世纪开始拉大：

西方：开始使用阿拉伯数字；（理性－科学性）

东方：仍然采用文字这种不精确的描述；（人性－灵活性）

5大知识点：

DecisionAnalysis（决策分析）

决策树—回溯的方法使“复杂问题简单化”、提炼问题

who、where、when、why、what、how

Sampling（抽样）

从个体抽样共性、得出普遍规律的方法论。（自然科学中的哲学）

“断章取义”导致统计学可以变化出完全不同的结果。

理论的结果是基于“随机”的抽样。

精确与粗燥的哲学：更加粗燥的t分布，得出的结果可能是更加精确的预测结果。

实际的生活中，人们往往对μ有预期，却对σ没有预期，导致了很多问题。

Simulaiton（仿真）

减轻抽样需要投入的时间和经历，结果依赖于“可以信赖的假设”

Regression（回归）

回归反映的是量变因素，对于质变必须从管理上解释。

Optimization（优化）

模型的准确性只对自变量范围内有意义。

DMD案例流程（供参考）：

案例背景：

5W+1H

who

when

where

what（要干什么）

why（待分析的原始数据或者解决途径）

how（怎样做，D.T）P25-规范的决策树

keypoint：（---总体框架）

有用的信息和数据（why）；

提炼问题（what:Unkowninformationandquestion）；

初步分析：

根据决策树建模，即通常是分析框架、一个公式，或者一个目标

keypoint：（清晰分析思路―注意不要陷在数据里，有些可能无解，但要写明原因。）

决策思路（D.T）说明是否做敏感性分析，是否另行设计决策树找出其他的解决办法，或从其他角度重新看这个问题－把复杂的问题分解成若干问题，简化问题；

列出具体的分析思路和步骤；

在思路基础上，找出相关需要的变量、函数和相互间的关系；

例子：（最后一个书商案例）

决策变量：

P书Q页数Q印刷Q销售

目标函数：∏＝销售收入－总成本＝P书×Q销售－f总成本（Q页数，Q印刷）

约束：

1毛利率＝1－直接成本/销售收入

＝1－g直接成本（Q页数，Q印刷）/（P书×Q印刷）=40%

225=P书=35

3Q销售=Q印刷

4所有变量＝0

P书 ―――需优化求解

Q页数 ―――已知条件

Q印刷 ―――需回归或仿真

Q销售 ―――需回归或仿真

f总成本（Q页数，Q印刷） ―――需回归

g直接成本（Q页数，Q印刷） ―――需回归

数据处理：

keypoint：（根据初步分析思路，进行数据处理，找出可以符合管理者角度意愿的证据。）

DMD的5个主要概念（决策分析、抽样、仿真、回归和优化）都可能会用到，基本概念和适用范围要基本明确。

根据分析思路，逐个把数据处理过程简单介绍，有些东西即使不会或者没时间做也要写上（比如mean，SD，相关系数，变异系数，直方图，散点图等等）。

如果有可能，指出数据的分布特性（如超几何、均匀、指数、柏松分布）

实际考试中，可能没有时间做特别细致和准确地分析，能像惟锲那样在很短的时间内进行透彻地回归分析太难了，所以把做法和思路写清楚最重要。

可能用到工具包括：

抽样：

不要误用总体；

抽样数量应该不少于30；二项分布应该同时满足n×p=5和n×（1－p）=5，否则应该质疑正态分布特性；

实际操作可以用直方图看看其是否满足正态分布；

例子：（最后一个书商案例）

对邮件抽样调查的结果应该产生质疑，比如他的总体可能有问题。

仿真——在样本缺乏，但有样本分布规律时使用仿真，随机产生数据作为分析样本

（excel：工具－数据分析－随机数发生器）

随机数1000；

对产生后的随机数分析均值，标准差，置信区间等。

回归——适用于找出变量之间的相互关系、影响销售的重要因素等等

（excel：工具－数据分析－回归）

回归最适合呈现的是“可以量变”的规律，对于质变的规律必须另辟蹊径。

n=5*(k+2),n是样本数，k是自变量数目；

首先明确因变量和自变量，通过相关系数大致观察规律；

（excel：工具－数据分析－相关系数）

明确一些关键回归值的意义：（SF\R2\P-VALUE）

SF：小于10%代表回归效果显著

R2:代表总波动中有多少可以用回归模型进行解释，越大越好

P-VALUE：大于10%说明有多重共线性的可能，需要删除，但删除要谨慎，删除前先看相

您可能关注的文档

文档评论（0）

book_zhj + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

用户编号：8002066073000063

1亿VIP精品文档

更多 >

清华大学《数据模型与决策》DMD(孙静)---课程精髓及案例分析流程.docVIP