- 1、本文档共11页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多元回归模洗型new
多元回归模型
一、模型的设定和求解
为扰动项
Y与X之间存在着线性关系,有关扰动项u的假设和一元回归类似。
若样本容量为n,则模型可以写为:
模型可以用矩阵表示如下:Y=XB+U
利用最小二乘法求系数的解:
最小二乘的意思就是残差的平方和达到最小,也就是最小
残差平方和
于是
注意根据矩阵的基本定理=,则,而与都是矩阵,故两者同值。对残差平方和求偏导,并令其为零。
回归方程的显著性检验:
回归系数的显著性检验:t检验
可以证明,在回归方程中自变量的系数的分布为:
是矩阵主对角线上的元素,由于无法直接得到,故以样本残差来代替:,因此可以t统计量来检验假设
统计量
回归方程的显著性检验:
运用F统计量
二、多重共线性
定义:回归模型中有两个或两个以上的自变量相关。
问题:当变量相关时, 回归系数的解会存在问题,一是完全无解,二是系数不稳定。而且可能对参数估计的正负号产生影响。(参数估计的正负号与预期相反)
多重共线性的判别:见书P363页
多重共线性的处理:变量选择法
三、虚拟自变量的回归
解释变量的分类:
定量变量:反映数量大小的变量;如收入,产量,价格,成本等。一般用X表示。
定性变量:又称属性变量 ,很难直接度量其大小,如性别,种族,职业,受教育水平,季节,战争,地震,罢工等。一般用D表示。
2.由于定性变量常指某一“性质”或“属性”出现或不出现,因此“量化”这些变量的一个方法是构造一个取值为1或0的人为变量,即:
取这样的1或0值的变量叫做虚拟变量(Dummy Variables)。
例:
;
方差分析模型(ANOVA)
当模型中的解释变量只有虚拟变量时,称为方差分析模型(analysis of variance models)。
例:分析大学毕业生和非大学毕业生的初职年薪是否存在差异。
假设设定以下回归模型:
其中,Y表示初职年薪;
也应是说,对于大学毕业生而言,其D=1,代入模型中可得:
,其期望值为:
对于非大学毕业生而言,其D=0,代入模型可得:
, 其期望值为:
也就是说,原模型是假设大学毕业生的初值年薪与非大学生的初职年薪显著不同,其平均差距为虚拟变量D的系数b2。
被赋予零值的那个类别被称为是基底或基准(base,benchmark),也就是说,它被用于和其它类别比较的基础。共同的截距项b1就是基底类的截距项。
虚拟变量D的系数b2被称为级差截距系数(differential intercept coefficient),它告诉我们取值为1的类别的截距值和基底类的截距值相比有多少差别。
虚拟变量显著性检验:t 检验显著表明虚拟变量被赋予1值的分类与基底类的差异是显著的。
包含一个定量变量,一个虚拟变量的回归模型
在实际分析中,很少使用前面提到的方差分析模型,,更多的是用到既有定量变量,又有虚拟变量作为解释变量的回归模型,这样的回归模型称为协方差分析模型(ANCOVA)。
例:分析大学教师的工资的主要影响因素。
设定以下回归模型:
其中,Y为大学教师的年薪;X为教龄;
这个模型认为,大学教师的年薪主要受两个因素的影响,一个是教龄,另一个是性别。 并且假设性别只对大学教师年薪的截距产生影响,年薪对教龄的变化率不受性别影响(即男女教师具有相同的斜率)。
可以将以上模型分解为:
女教师的年薪模型:D=0
截距为:b1(基底类的截距)
男教师的年薪模型:D=1
截距为:b1+b2
级差截距为:b2
虚拟变量的显著性检验的意义:D的t统计量显著表明男女教师的年薪的差异是显著的,平均而言,男教师的年薪比女教师高b2个单位。
虚拟变量的设置规则
对于有截距项的回归模型,其虚拟变量的设置规则为:某一属性变量如果有m种互斥的分类,则针对这一属性应在模型中引入m-1个虚拟变量。
例如:假设旅游支出主要受收入和教育因素的影响。其中,收入是定量变量,教育是定性变量。假设教育水平可以分为三类:大学以上水平,中学水平,和未达到中学水平。因此模型中应引入的虚拟变量的个数为3-1=2个。模型可设定如下:
其中,Y表示旅游支出,X表示收入水平,
所以模型中三类教育水平的截距分别为:
未达到中学水平: b1 D1=0; D2=0
中 学 水 平: b1+b3 D1=0 ; D2=1
大学以上 水 平: b1+b2 D1=1 ;D2=0
这样设置
文档评论(0)