基于多元统分析的基因判别问题.doc

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于多元统分析的基因判别问题

基于多元统计分析的基因判别问题 摘要:本文针对问题一中需要利用已知癌症患者的基因样本及正常人的基因样本各20个来对待测者进行预测的问题,首先利用主成分分析法对指标数过于庞大的110个基因进行降维,得到21个能表达原指标88.8%的主要信息的主成分指标,将其导入统计分析软件spss中,将20个癌症样本标记为1,20个正常样本标记为2。然后对数据进行fisher判别分析,从附录中的分析结果Wilks’Lambda表中可看到概率P值为0.007小于0.05,即两判别函数具有显著性差异。另外,从自动保存在新变量Dis_1中的判别结果中可看出除了第13个样本及第33个样本判别有误外其他均判断正确,回判率高达95%,由此对待判者得出的结果为:癌症患者有42,43,45,47,49,50,51,52,54,55,56,59,60.其他7位为正常人。 针对问题二,我们首先在问题一的基础上确定了癌症样本与正常样本在基因上的区别,引进了 ROC 曲线,对于分析样本的灵敏度与特异性具有良好的可视性,通过每一项检测的指标与同相应的临界值相比,直观简洁地判别癌症与正常样本的基因差别,其验证的结果正确率高达 90%。另外,通过对曲线的观察,我们根据syn 的计算公式,理论上规定病人的syn 值越大,病情越严重,因此我们把病人的患病轻重分为三类,即癌症病情的三个级别,由轻到重分别标记为:Ⅰ、Ⅱ、Ⅲ类,对于前 20 个癌症样本分子类的结果如下: Ⅰ:13,14,2,8,9,19,20 Ⅱ:1,3,5,7,10,11,12,15,16,18 Ⅲ:6. 关键词:主成分分析法,fisher判别法,spss,ROC曲线 一.问题的重述 地中海贫血(简称地贫)是全球广为流行、危害极为严重的遗传性溶血性疾病,全世界至少有3.45亿人携带地中海贫血的致病基因。全球地中海贫血基因携带者频率高达2.62%,包括中国南方在内的东南亚地区、印度次大陆、地中海地区、中东、东非和太平洋地区都是该疾病的高发地区。由于携带者婚配的下一代有1/4的机会患严重溶血性贫血症状的重症地中海贫血,估计全球重型地中海贫血患儿的出生率不低于万分之四,因而构成了严重的公共健康问题。 地贫是一种单基因遗传的血红蛋白病目前没有根治方法,患者轻则无任何临床表现,重则表现为进行性溶血性贫血。医学上通过大人群的基因筛查来预防地贫患儿的出生。 附件(基因链.xls)中给出了60个人的基因链样本(每个人的基因链给出了110个基因)20是地贫样本21~40是健康样本,0个是待的样本。 (1)试设法找出描述地贫患者样本与健康人样本在基因链上的区别,建立数学模型方法,去预测待样本是地贫还是健康。 (2)设计图示可视化方法使所建立的数学模型尽可能清楚地表达地贫与健康样本在基因链上的区别。 二.模型的假设 ①.假设这60个样本的110个基因表达的信息可靠; ②.假设这 114 个基因指标的数据之间相互独立。 ③.假设这 60 个人的 114 个基因指标都是按照相同的顺序进行排列,即数据的纵向都是同一个相同的观测水平。 ④.假设把基因表达水平中不属于癌症和正常的样本归为不可判别类。 ⑤.假设给出的 20 个正常人的基因表达信息样本中没有子类. ? ? ? ? ? ? ? ? ? ? ? ? ?

文档评论(0)

wnqwwy20 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7014141164000003

1亿VIP精品文档

相关文档