数据挖掘讲义完整版.pdf

  1. 1、本文档共111页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘讲义完整版

2013年6月3 日 软件培训之家软件培训之家 激素水平影响因素分析 @文彤老师 软件培训之家软件培训之家 案例背景介绍 2 软件培训之家 研究背景 • 在某个消化内科的科研项目中,研究者认为某种激素 水平可能会对胃癌的发生有一定的作用,因此设计了 此项研究,将病人按照临床病理诊断结果分为对照组 和试验组(出现病变组)两组,并采集了如下指标: • 性别:男、女。 • 年龄:除记录实际年龄外,还根据临床研究的习惯,按照 45岁、45~59岁、60岁及以上分为青年、中年、老年三组。 • 上述指标在两组间有大致的配额控制,但并未完全均衡。 • 此外,对于试验组,还进行了如下实验室检查: • 萎缩程度:分为轻、中、重度三级。 • 胃粘膜细胞肠化生程度:分为无、轻度、中度、重度四级。 3 1 2013年6月3 日 软件培训之家 研究背景 • 研究者希望回答的研究问题如下: • 总目标:在控制了其他因素的作用之后,激素水平是否 的确在两组间存在差异。 • 基于目标,又可进一步衍生出如下分目标: • 分目标1 :激素水平和年龄、性别等有无关联。 • 分目标2 :在试验组中,激素水平和粘膜萎缩程度、肠 化生程度等是否有关。 4 软件培训之家 基本研究思路 • 确定研究问题所从属的统计框架 • 因变量的影响因素发现与确认? • 进一步深入到变量预测问题? • 变量间的内在关联结构发现? • 元素分组/归类问题? • 确定研究设计类型 • 成组设计? • 配对/配伍设计? • 更复杂的设计类型,比如嵌套设计? • 核心研究指标确定 • 关键影响因素指标确定 5 软件培训之家 分析思路/商业理解 • 本例是一个比较典型的要求控制其余影响因素下 的两组数据比较。因此从基本思路上应当属于影 响因素发现与确认的范畴,绝大多数情况下,此 类问题的分析流程如下: • 在数据理解的基础上,先进行单个因素对应变量的影响 大小分析,对可能需要控制的其他影响因素进行预筛, 并提前发现可能和因变量存在曲线关联的连续性自变量, 以便后续分析中做出相应的数据准备和建模变换。 • 根据单因素分析的结果,尝试构建多因素模型,从而在 控制其余影响因素的同时,得到分组变量是否对因变量 有影响的结论。 • 继续深入分析,依次回答各个分目标。 6

文档评论(0)

yan698698 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档