- 1、本文档共111页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘讲义完整版
2013年6月3 日
软件培训之家软件培训之家
激素水平影响因素分析
@文彤老师
软件培训之家软件培训之家
案例背景介绍
2
软件培训之家
研究背景
• 在某个消化内科的科研项目中,研究者认为某种激素
水平可能会对胃癌的发生有一定的作用,因此设计了
此项研究,将病人按照临床病理诊断结果分为对照组
和试验组(出现病变组)两组,并采集了如下指标:
• 性别:男、女。
• 年龄:除记录实际年龄外,还根据临床研究的习惯,按照
45岁、45~59岁、60岁及以上分为青年、中年、老年三组。
• 上述指标在两组间有大致的配额控制,但并未完全均衡。
• 此外,对于试验组,还进行了如下实验室检查:
• 萎缩程度:分为轻、中、重度三级。
• 胃粘膜细胞肠化生程度:分为无、轻度、中度、重度四级。
3
1
2013年6月3 日
软件培训之家
研究背景
• 研究者希望回答的研究问题如下:
• 总目标:在控制了其他因素的作用之后,激素水平是否
的确在两组间存在差异。
• 基于目标,又可进一步衍生出如下分目标:
• 分目标1 :激素水平和年龄、性别等有无关联。
• 分目标2 :在试验组中,激素水平和粘膜萎缩程度、肠
化生程度等是否有关。
4
软件培训之家
基本研究思路
• 确定研究问题所从属的统计框架
• 因变量的影响因素发现与确认?
• 进一步深入到变量预测问题?
• 变量间的内在关联结构发现?
• 元素分组/归类问题?
• 确定研究设计类型
• 成组设计?
• 配对/配伍设计?
• 更复杂的设计类型,比如嵌套设计?
• 核心研究指标确定
• 关键影响因素指标确定
5
软件培训之家
分析思路/商业理解
• 本例是一个比较典型的要求控制其余影响因素下
的两组数据比较。因此从基本思路上应当属于影
响因素发现与确认的范畴,绝大多数情况下,此
类问题的分析流程如下:
• 在数据理解的基础上,先进行单个因素对应变量的影响
大小分析,对可能需要控制的其他影响因素进行预筛,
并提前发现可能和因变量存在曲线关联的连续性自变量,
以便后续分析中做出相应的数据准备和建模变换。
• 根据单因素分析的结果,尝试构建多因素模型,从而在
控制其余影响因素的同时,得到分组变量是否对因变量
有影响的结论。
• 继续深入分析,依次回答各个分目标。
6
文档评论(0)