- 1、本文档共21页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
应用时间序列分位数回归精要
目录
一、为什么需要分位数回归
二、总体分位数
三、样本分位数
四、分位数回归的估计方法
五、分位数回归模型的估计
六、R软件操作分位数回归
一、为什么需要分位数回归?
1、一般的回归模型着重考察x对y的条件期望E(y|x)的影响,如果y|x不是对称分布,则E(y|x)难以反映条件分布的全貌。如果能够估计条件分布y|x的若干重要的条件分位数,比如中位数等,能够更加全面的描述被解释变量条件分布的全貌,而不是仅仅分析被解释变量的条件期望(均值)。不同分位数下的回归系数估计量常常不同,即解释变量对不同水平被解释变量的影响不同。
2、使用 OLS 进行“均值回归”,由于最小化的目标函数为残差平方和,容易受极端值影响。“分位数回归”,使用残差绝对值的加权平均作为最小化的目标函数,不易受极端值影响。而且,分位数回归对误差项并不要求很强的假设条件,因此对于非正态分布而言,分位数回归系数估计量则更加稳健。
二、总体分位数
假设Y为连续型随机变量,其累积分布函数为Fy(·)。Y的“总体q分位数”,记为yq,满足以下定义式:q = P (Y≤yq)= Fy(yq)? ?
总体q分位数正好将总体分布分为两部分,其中小于或等于yq的概率为 q,而大于yq的概率为 (1-q )。
如果q =1/ 2,则为中位数,正好将总体分为两个相等的部分。
如果Fy(·)严格单调递增,则有yq=Fy-1 (q)
对于回归模型,记条件分布 y | x 的累积分布函数为F y | x (·)。
条件分布y | x 的总体q分位数,记为yq,满足以下定义式:
q= F y | x (yq)
假设F y | x (·)严格单调递增,则有yq= F y | x -1(q)
由于条件累积分布函数F y | x (·)依赖于x ,故条件分布 y | x的总体q分位数yq也依赖于x,记为yq (x),称为“条件分位数函数”。
对于线性回归模型,如果扰动项满足同方差的假定,或扰动项的异方差形式为乘积形式,则yq (x)是x的线性函数。
证明如下:
y=x’β+ u
u=x’α·ε
ε~ iid(0,σ2)
不失一般性,假设x’α0。
如果x’α为常数,则扰动项 u 为同方差;反之,则为乘积形式的异方差。
根据定义,条件分位数函数yq (x)满足
q=P{y≤yq (x)} (条件分位数的定义)
=P{x’β+ u≤yq (x)}
=P{u≤yq (x) – x’β}
=P{x’α·ε≤yq (x) – x’β}
=P{ε≤(yq (x) – x’β)/( x’α)}
=Fε(yq (x) – x’β)/( x’α))
其中,Fε(·)为ε的累积分布函数。因此,(yq(x) – x’β)/( x’α)= Fε-1 (q)。yq(x)= x’β+ x’α*Fε-1(q),故yq (x)是x的线性函数。
在同方差的情况下,x’α为常数,所有条件分位数函数{yq(x),0q1}的斜率都等于β,只有截距项x’α*Fε-1 (q)依赖于 q。
一般地,条件分位数函数的“斜率”也依赖于 q,记为βq。
在下文中,假设条件分位数函数是解释变量 x 的线性函数。
三、样本分位数
对于随机变量Y,如果总体的q分位数yq未知,可使用样本 q分位数 yq 来估计yq。
将样本数据{y1,y2,…,yn}按从小到大的顺序排列为{y(1),y(2),…, y(n)}。
yq 等于第[nq]个最小观测值,其中n为样本容量,[nq]表示大于或等于nq而离nq最近的正整数。
【例】n= 97,q =0.25,则[nq]=[97* 0.25]=[ 24.25]= 25。
但这种方法不易推广到回归模型。
一种等价方法是,将样本分位数看成是某最小化问题的解。
样本均值也可看成是最小化残差平方和的解:
minu i=1nyi-μ2 ? u=y=1ni=1nyi
样本中位数可视为“最小化残差绝对值之和”问题的解:
minμ i=1nyi-μ μ=median{ y1,y2,…,yn }
为什么求解这个最小化问题会得到样本中位数呢?
因为只要μ的取值偏离中位数,就会使得残差绝对值之和上升。
例 考虑一个样本容量为99 的样本,假设其样本中位数(即第50个最小观测值)为 10。
……49 1050th 12……49
假设第 51 个最小观测值为 12。如让 μ=12而不是10,则对于前50 个观测值而言,其残差绝对值yi-μ都将增加 2;对于后 49 个观测值而言,其残差绝对值yi-μ都将减少 2。
故总变动为(50*2) -( 49*2)=2,故第 51个最小观测值不如第50个最小观测值(中位数)更能使目标函数最小化。
同理,第49个最小观测值也不如第50个最小观测值。
由此可知,第 50个最小观
您可能关注的文档
最近下载
- 03《中国药典》2020年版非无菌产品微生物限度检查:计数法解读.pptx VIP
- 解读成长型思维.pdf VIP
- 温州市名师工作室学员手册.doc
- SMED培训资料课件.ppt
- 2024年山东经贸职业学院单招职业技能测试题库(名师推荐).docx VIP
- 贵州贵阳市大数据产业集团招聘笔试题库2024.pdf
- Unit 5 Fun Club Section B 2a-2b Writing 课件 人教版(2024)英语七年级上册.pptx
- 2024年度民主生活会个人对照检查材料(带头增强党性、严守纪律、砥砺作风方面)+带头增强党性、严守纪律、砥砺作风方面存在的主要问题.doc VIP
- 黑布林阅读初二11《杰克的威士本游园会》中文版.pdf
- 项目级安全交底.docx VIP
文档评论(0)