- 1、本文档共60页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
五虚拟与离散变量回归模型
第五章 虚拟与离散变量回归模型
前面所研究的回归模型,其变量都是在取一些实际的数值,一般是连续的。实际工作中经常遇到变量取离散数值情形,它的回归模型需要给予特殊的考虑。在经济分析中还经常遇到因变量不是数值,比如买与不买,升与降,有与无等。这些选择可以给予一个虚拟变量并赋以数值代表。这样的回归当然就更有特色了。本章就研究这一类回归模型。
第一节 虚拟变量作自变量的模型
在回归模型中,因变量往往不仅受到那些取实际数值的自变量(如价格、工资收入、产量、温度、距离、重量等等)的影响,而且受到一些不取实际数值的自变量(如性别、国籍、种族、颜色、学位、地震、罢工、政治动乱、政府更叠等等)的影响。要在模型中反映这种影响,可以引进虚拟变量,人为给予这些因素赋以一定数值。如果某因素只有二种选择(如性别),可以引进虚拟变量
当然也可以给Di赋值(1,-1)或(1,2),怎样赋值要看实际问题表示与计算方便。如果某因素有多项选择,如学位,你可以引进虚拟变量
等等。我们先考虑虚拟变量在模型中作加项,再考虑作乘项。
一、虚拟变量作加项,工资性别差异
设对某种职业者的工资采集了10个样本,列于下表,工资单位略去,性别栏中1表示男性,0表示女性。
表5.1.1
序号 1 2 3 4 5 6 7 8 9 10 工资 22.0 19.0 18.0 21.7 18.5 21.0 20.5 17.0 17.5 21.2 性别 1 0 0 1 0 1 1 0 0 1
我们以性别为自变量建立回归模型
(5.1.1)
对于表中资料回归得
它表示,女性的平均工资为18,男性的平均工资为18+3.28=21.28。由于回归系数β1的t统计量为7.44,远大于临界值0.44,非常显著,故认为该项工作男女工资存在差别。
一般地,对模型(5.1.1)
(5.1.2)
(5.1.3)
若β1显著性检验通过,应认为Di的属性集合存在显著差别。
上面的模型除了考虑性别外,没有考虑任何其它因素。如果考虑其它因素对工资的影响,比如工龄,可以取实际数值,以X表示,则有模型
(5.1.4)
此时
(5.1.5)
(5.1.6)
如果系数β1是统计显著的,表示工资还是存在性别差异。
如果某个因素有3个属性,能不能用这种两项选择的开关变量表示呢?可以使用两个开关变量。比如学位分3个等级:学士,硕士,博士,就引进
建立如下模型
(5.1.7)
则
(5.1.8)
(5.1.9)
(5.1.10)
不过更多的情况是将两个虚拟变量用来区分两个因素,如用D1区分性别,用D2区分肤色,等等。
可以使用更多的虚拟变量,如有人研究业余兼职者的工资状况,建立过如下的回归方程
(5.1.11)
式中X1是第一职业工资,D2~D5都是开关变量,用来区分肤色(白人,非白人),居住地(城区,非城区),地域(西部,非西部),学历(高等教育,非高等教育)。X6是年龄。
这一段谈到的都是虚拟变量作加项,它影响回归方程的均值。
二、虚拟变量作乘项,储蓄与收入分段拟合比较
这一段考虑虚拟变量作乘项,它影响回归方程的斜率。开始我们也看一个具体的数值例子。表5.1.2是英国1946~1963年居民储蓄与收入资料,单位是百万英镑。
表5.1.2
年份 储蓄 收入 年份 储蓄 收入 1946 0.36 8.8 1955 0.59 15.5 1947 0.21 9.4 1956 0.90 16.7 1948 0.08 10.0 1957 0.95 17.7 1949 0.20 10.6 1958 0.82 18.6 1950 0.10 11.0 1959 1.04 19.7 1951 0.12 11.9 1960 1.53 21.1 1952 0.41 12.7 1961 1.94 22.8 1953 0.50 13.5 1962 1.75 23.9 1954 0.43 14.3 1963 1.99 25.2 表上粗略显示,资料可以分为两个时期:1946~1954年为战后恢复时期,1955~1963年为振兴时期。我们可以分别建立两个回归方程
(5.1.12)
(5.1.13)
对于本例具体资料,可以回归得
(5.1.14)
(5.1.15)
两个方程的斜率不一样,反映储蓄增长速度后来加快了。
要检验这组资料是否真的应该划分为两组,建立两个回归模型,或说要检验这两个回归方程是否有显著性差别,可以使用Chow检验法(具体方法在后面介绍)。但是,一组资料用两个方程描述会带来诸多
文档评论(0)