- 1、本文档共12页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
对数线性模型读书笔记
对数线性模型读书笔记
What is it
■ 对数线性模型一种分析二维及多维列联表资料的统计模型,即给定n维(例如用n
个属性表示)元素的组合,可以把每个元素看做n维空间的点。而使用对数线性模
型可以计算一个基于维组合的较小子集中在多维空间中每个点的概率。
■ 使得高维数据空间可以由较低维空间数据构造
■ 对数线性模型中有:logistic regression、Maxinum entropy。
基本原理
■ 对数线性建模的目的是识别分类变量间的关系 ;
■ 对数线性模型近似于离散的、多元的概率分布
■ 如果在对数线性模式中,变量间有相互作用,就表示这些变量不是独立的,而是
相关的,相应的β不等于0,此时不应把这些分类变量作为这个分析的输出
■ 对数线性模型用来描述期望频数与协变量之间的关系:
p 考虑期望频数m的取值范围在0到无穷之间,所以需要进行对数变换为f(m)=ln(m) ,使得
其取值在- ∞到+ ∞之间
p 对数线性模型具有以下模式:
ln p=α + + … +
模型中存在的问题
■ 实际中的很多问题,都是当x很小或很大时,对于因变量m的影响很小,当x达到
中间某个阈值时,影响很大。即实际中很多问题,概率P与自变量并不是直线关系。
■ 这分类模型需要修整,怎么修正呢?统计学家们找到的一种方法是通过logit变换
对因变量加以变换,建立对数线性模型中的一种logistic模型。
对数线性模型和logistic模型
■ 区别:
■ 对数线性模型关心的是属性变量之间的关联;而logistic模型关心的是一个属性响应变
量怎么依赖与一组解释变量。
■ 联系:
■ 对于一个对数线性模型,可以对其中一个响应变量构造logistic模型来帮助解释模型。
■ 解释变量为属性变量的logistic模型,有等价的对数线性模型
利用logistic模型具体实现
■ 通过logit变换对因变量加以变换,具体如下 :
Logit(p)= log(pj/[1-pj])
Logit(p)=+ + + ⋯ +
小结
■ 对数回归在数据挖掘的应用中是一个简易而强大的分类工具。根据一组数据(训练
集)就可以建立对数回归模型,再根据另一组数据(检验集)就可以分析在预测分类
值时模型的性能。
■ 在变量较多或变量水平较多的情况下,可以先用对数线性模型分析主效应和交互
效应,对没有统计意义的变量或水平作适当的维数或水平的压缩,将数据简化后
再用logistic回归分析你和模型
附:各种数据预处理技术适用
场景/ 条件
数据清理
■ 场景/ 条件
当提供的数据中数据不完全,有噪声数据,存在离群较远的数据,这些数据
在整体的数据中即是通常意义上的垃圾数据,通过数据清理可以将这些数据清理
出总体数据中,从而使得运用清理后的数据可以得出更准确更有说服力的结论。
虽然大部分数据挖掘例程都有数据噪声处理和处理不完整的过程,但是这些过程
不是鲁棒的,反而主要避免建模的函数不要过分拟合数据,这种情况下需要数据
预处理中数据处理来处理数据。
数据集成
■ 场景/ 条件
要集成多个数据库,数据立方体或文件,则可能存在数据冗余,这种情
况下需要进行数据集成来增加数据的精准性。在总体数据中,可能代表同一
属性的数据可能有不同的名字从而造成数据的冗余和不一致性,或者由其他
属性导出的数据与原有数据冲突或重复。
数据规约
■ 场景/ 条件
需要降低数据集的规模同时又不能损坏数据挖掘结果,但进行数据规约后所
得到的数据小得多,数据仍接近保持原数据的原始性。
数据变换
■ 场景/ 条件
需要将数据转换或统一成适合于挖掘的形式。比如去掉数据的噪声得到光滑的数
据,将数据进行汇总以
文档评论(0)