- 1、本文档共15页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
. .
word版本
2007年北京工业大学数学建模竞赛初赛试题B题:
化验结果的处理 题解
摘要:
本文运用了距离判别和Fisher判别两种方法对问题进行分析求解,得出了我们想要的结论,即通过体内元素含量较准确的判别个体是否患有肾炎。
问题的提出
人们到医院就诊时,通常要化验一些指标来协助医生的诊断。诊断就诊人员是否患肾炎时通常要化验人体内各种元素含量。表B.1是确诊病例的化验结果,其中1-30号病例是已经确诊为肾炎病人的化验结果;31-60号病例是已经确定为健康人的结果。表B.2是就诊人员的化验结果。我们的问题是:
根据表B.1中的数据,提出一种或多种简便的判别方法,判别属于患者或健康人的方法,并检验你提出方法的正确性。
按照1提出的方法,判断表B.2中的30名就诊人员的化验结果进行判别,判定他(她)们是肾炎病人还是健康人。
能否根据表B.1的数据特征,确定哪些指标是影响人们患肾炎的关键或主要因素,以便减少化验的指标。
根据3的结果,重复2的工作。
对2和4的结果作进一步的分析。(表见附录)
2、问题分析
题目中表.1中给出了已经确诊为肾炎病人和健康人的各30组数据;
每一组数据都有七个数,分别代表了Zn, Cu, Fe, Ca, Mg, K, Na在每个人体内的量;
第一问要求我们提出判别一个人属于患者还是健康人的方法,这就需要通过对60组数据的分析得出健康人和肾炎患者体中这些元素量之差异,这些差异的大小又同时是解决第三问的主要影响因素;
在寻找数据的差异时,我们用到的传统方法就是求数据的方差和均值,用excel列表分析,用matlab作直方图分析。
第二问最可靠的方法就是用判别分析来做,这就需要在R软件中进行一些必要的编程和处理;
第四问是建立在第三问的基础上的;当解决了第三问中到底是那些因素影响到了人们患肾炎的关键时,只需要在那些主要因素中进行判断就可以省去一些复杂繁琐的步骤;
将以上问题都解决之后,我们使用和步骤5)相同的方法,使用R软件帮助我们高效地对精简后的数据进行再次分析,并且把第二问和第四问的结果之间进行比较,观察差异和详细的分析。
为了进一步验证我们这种做法的合理性,我们又要用C语言编一个程序,把表B2中的数据与4)中所求出各元素的均值进行比较,进行了一下直观的分析。
3.符号约定
后缀为1:患者体内元素的含量(例如:Zn1代表患者体内Zn的含量);
后缀为2:健康人体内元素的含量(例如:Zn2代表健康人体内Zn的含量);
1:患者;
2:健康人;
4.模型假设
题中所给的内容和数据都是真实可信的;
除了表中列出的元素外,其他元素对是否会患肾炎的影响很小;
外界条件对肾炎患者的影响不计;
没病的个体都是健康体。
5.模型建立
该问题的关键是如何判断一个人是有病的还是健康的,即这是个判别问题,可以采用统计方法中的判别分析法进行分析处理。题目中只有两类——病体和健康体,所以可采用二类群体的判别方法。
首先考虑用一种简单而直观的判别方法——Mahalanobis距离判别。根据两个母体样本计算出他们的均值向量和协方差阵,求取待测样本x对两个样本的Mahalanobis距离,二者取差值,判断离那个母体近似。
设x,y是从均值为μ,协方差阵为Σ的总体A中抽取的样本,则总体A内两点x与y的Mahalanobis距离定义为.定义样本x与A的Mahalanobis距离为。在现实中,母体的均值向量和协方差阵由样本的均值向量和协方差阵来代替:设,,……是来自母体A的个样本,,,……是来自母体A的个样本,则样本的均值与协方差为,,对于待测样本x,如果两个母体样本的协方差相同,由得到判别函数为,其中,其判别准则是 。如果两个母体样本协方差不同,即,对于样本x判别函数定义为:,。
其次考虑用另外一种方法求取解决办法——Fisher判别法,即按类内方差尽量小,类间方差尽量大的准则来求判断函数。
设两个总体A、B的均值和协方差阵分别是、和、,对任一测样本x,设它的判别函数为,并假设,,使满足类内偏差平方和最小,而类间偏差平方和最大,其中。即要满足最大,若,则,否则。通过推导得出判别函数,其中,,当,,否则。
6.模型求解
利用模型求解时通过R软件将以上两种算法编写成程序代码,通过手动输入样本,利用计算机进行求解,程序清单如下:
Mahalanobis距离判别:
A-matrix(c(166,15.8,24.5,700,112,179,513,185,15.7,31.5,701,125,184,427,193,9.80,25.9,541,163,128,642,159,14.2,39.7,896,99.2,239,726,226,16.
文档评论(0)