网站大量收购独家精品文档,联系QQ:2885784924

logistic回归模型因变量的不同形式.PPT

  1. 1、本文档共35页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
logistic回归模型因变量的不同形式

若我们所研究的因变量为分类变量时,线性回归的假设条件往往不能成立。 二、线性概率模型(LPM)及其问题 1、实际情况y为0、1,但线性回归方程结果不是如此 2、与实际情况不同(等速与变速) 补充:有关数学知识 定义形如 的函数叫幂函数,其中α为常数 指数函数, (a>0,且a≠1),注意与幂函数的区别. 对数函数y= (a>0,且a≠1). 指数函数 与对数函数y= 互为反函数. (2)指数函数与对数函数的图象和性质如表1-2.? 一般对数的底可以为任意不等于1的正数。 对数的底如果为超越数e(e=2.718),我们就把这样的对数叫作自然对数,用符号“ln”表示。 “1”是对数“logarithm”的第一个字母,“n”是自然“nature”的第一个字母,把两个字母合在一起,就表示自然对数。 ln1=0 ln100=4.605170 “lg”表示以10为底的对数 logistic概率函数 由图示可知: 1、b表示自变量的作用方向 (b为正数,logsitic函数随x值增加而单调增加;反之亦然) 2、-a/b是曲线的中心,在这一点上概率函数整好取值0.5。 函数以拐点(-a/b,0.5)为中心对称,在这一点上曲线的变化率最大,而距离这一点越远,曲线变化率越小,在趋近函数的上限或下限时,曲线的变化率接近于零 3、b的绝对值越大,曲线在中段上升或下降的速度越快(越陡峭)。 这意味着主要变化部分被压缩在x轴上对应拐点的附近范围内。 以上只在logistic函数中引入了一个自变量,可以扩展为多元分析 为表达便利,将多元线性组合 以 表示 ,再令z= ,于是,logistic函数可以表示为: 如果将上式分子分母同乘以exp(z),有: 对上式继续转换: p[1+exp(z)]=exp(z) p+p*exp(z)=exp(z) p=exp(z) -p*exp(z) p=(1 –p)exp(z) 最后对等式两边取对数,得到了概率的函数与自变量的线性表达式 例:分析被调查妇女为文盲的可能性与其他因素之间的关系 因变量 WENMNG:本人为文盲取值1,其他为0 自变量 民族:汉族为1,少数民族为0 居住地:农村居民为1,城市为0 婚姻状况:未婚为1,其他为0 年龄:定距变量或分年龄组的定序变量(15~49岁) 一、问题 多元线性回归的表达方式(回顾) logistic回归中,xi与logit p有线性关系,但与p却不是线性关系——xi变化对p的作用难以确切表达 通过logtistic回归系数可以得到各自变量对事件概率作用的笼统认识,但无法一般性地表示确切的变化关系 ——报告xi对logit p的作用 二、以发生比的指数表达式来解释回归系数 发生比具有实际意义,表示一种相对风险 如果我们要分析x2变化一个单位对于发生比的影响幅度,可以用(x2+1)表示,并将其代入上式表示新的发生比值 = = = 三、发生比率(相对风险比) 把两个发生比集中在一起,有: ——我们称这一变化前后的两个发生比之比 为发生比率 (odds ratio),或称相对风险比(relative risk ratio):可测量自变量一个单位的增加给原来的发生比所带来的变化 请注意准确表达: 参照前例: 农村调查对象与具有相同特征(民族、婚姻状况、年龄组)的城市妇女相比更有可能是文盲,农村的发生比是城市的10倍左右。 未婚调查对象与具有相同特征(民族、城乡、年龄组)的已婚者相比更不可能是文盲,未婚者的发生比是已婚者的三分之二左右。 二、Logistic 回归的系数标准化 标准化的 一、对模型的总体评价 Logistic回归方程求解参数是采用最大似然估计方法,因此其回归方程的整体检验通过似然函数值(likelihood)进行 似然函数:一种概率——假设拟合模型为真实情况时,能够观察到这一特定样本的概率,取值在0、1之间 L或lnL都可以作为判断模型优劣的指标,但其统计性质不明确 补充2:最大似然法 最早是遗传学家以及统计学家罗纳德·费舍尔在1912年至1922年间开始使用的。 「似然」是對likelihood 的一種較為貼近文言文的翻譯,「似然」用現代的中文來說即「可能性」。故而,若稱之為「最大可能性估計」則更加通俗易懂。 最大似然法的基本思想: 假定一个样本取自某已知分布形式的总体,但是我们并不知道总

文档评论(0)

2105194781 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档