- 1、本文档共10页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Cox模型分析客户流失时间
Cox模型分析客户流失时间
一、生存分析与cox比例风险模型 1
1. 生存分析 1
2. cox比例风险模型 1
二、案例分析 3
1. 案例说明 3
2. SAS 实现 3
3. SPSS 实现 4
4. SPSS Clementine 实现 6
一、生存分析与cox比例风险模型
1. 生存分析
生存分析是研究和预测生物和人的生存时间的分析方法,最初源于生物学和医学。而“生存”可以广义的理解为自然界、人类社会、技术过程和市场行为中某种状态持续的时间,因此生存分析还广泛的应用于工程科学、心理学、经济学和市场研究分析。本文要研究的,就是客户能够保持购买行为的时间,换言之,客户在什么时候会流失。
2. cox比例风险模型
(1)模型基本形式
令h(t)为风险率,是患者在t时刻仍存活,在时间t后的瞬间死亡率。
其中,不存在因素X1、X2 …Xp的影响的t时刻死亡率为,存在因素X1、X2 …Xp 影响的 t时刻死亡的风险率为h(t)。借助logit模型的构造思想,cox比例风险模型为:
它的常见形式为:
由于是未知的,所以又称为半参数模型。
该模型通过建立偏似然函数,使对数偏似然函数最大并用最大似然法的Newton-Raphson迭代得到参数的估计值。假设检验通过似然比检验,构造卡方统计量对系数进行检验。
(2) 系数意义
该模型的系数意义为:表示存在因素下,死亡的风险率是不存在因素的倍。
为风险指数(hazard index),简称HI,又称预后指数(prognostic index)或预后得分(prognostic score)。
HI=0 代表风险处于平均水平;HI0代表风险处于低水平;HI0代表风险处于高水平。
(3) 生存函数
生存函数S(t|x)代表一直生存至t时间的概率,即生存时间t的累积密度函数。令它的概率密度函数为f(t|x),那么有
,
解微分方程得,
(4)PH假定
PH假定即比例风险假定(proportional hazards assumption),即一个比例风险模型具有不同个体有成比例的性质,即对于两个协变量X1和X2,h(t|X1)/h(t|X2)不随时间t改变,这是由比例风险模型的形式决定的。
同时,它意味着二次对数生存曲线(log-log survival curves)应该平行。即两边取对数,两边对数值加上负号,再取对数
log{-log[S(t)]}=log{-log[S0(t)]}+bx
这是二次对数生存率,记为LML,可以发现,不同的LML相差只是个常数:LML1-LML2=b(x1-x2),与t无关。如下图示的一个例子就满足PH假定。
二、案例分析
1. 案例说明
在成功预测了客户流失可能性之后(参见《Logit模型预测客户流失》),电信公司对客户的“流失时间很感兴趣”,他们想知道哪些因素会导致客户在很短时间内更换使用其他电信服务,为此,随机选取了一些客户样本,和他们作为客户的时间,以及其他一些变量。数据文件仍为telco.sav。
2. SAS 实现
(1)数据清理
数据在《Logit模型预测客户流》已装入sasuser库中,本例中直接使用。
(2)模型构建
用SAS的phreg过程构建cox比例风险模型,注意建模去掉一些变量,包括缺失值过多的变量、电信专家认为不需要的变量。
proc phreg data=sasuser.telco;
model x2*y(0)=x3-x5 x7-x20 x26-x34 x40 x41/selection=stepwise slentry=0.05 slstay=0.1;
baseline out=telout survival=s_t stderr=stderr/method=ch;
run;
proc print data=telout;
文档评论(0)