- 1、本文档共9页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
神经网络判别分析解决分类问题。例:癌症分类副本
癌症识别模型
癌症识别模型
【摘要】
当今,癌症成为了影响人类健康的一大疾病,由科学结果得知,产生这一病症的源头为基因。所以基于癌症病患及正常在基因表达上的区别,我们采用了两种方法进行预测。
第一种方法中,我们构建了神经网络模型,采用多层前向神经网络,通过MATLAB,对输入层即20个癌症和20个正常样本,及输出层向量(1,0)(癌症病患)和(0,1)(正常)做数据处理,求出各个基因的权重,则可得到一个关于基因为自变量的方程。将待测的20个样本基因分别代入该方程中,求出结果,来达到预测效果。
第二种方法里,我们建立多元统计模型,对所给出的20个癌症及20个正常样本的114个基因做处理,利用spss软件的逐步判别筛选,找到出41个基因为与之相关系数最大的基因,并显示非标准化判别方程系数,从而得到判别方程D。之后,将待测样本的其中的41个基因数值代入判别方程中,当D大于0时,为正常者;当D小于0时,为癌症患者。由该模型只要知道某人的基因表达水平,就可以判断该人是否为癌症病患,即达到预测的目的。
【关键字】
神经网络 多层前向神经网络 多元统计 spss软件
逐步判别筛选基因 非标准化判别
问题重述
题目给出了一个114个基因, 60个人的基因表达水平的样本. 其中前20个是癌症病人的基因表达水平的样本(其中还可能有子类), 其后的是20个正常人的基因表达信息样本, 其余的20个是待检测的样本(未知它们是否正常). (所有数据请见(作业,txt))
(1).试设法找出描述癌症与正常样本在基因表达水平上的区别, 建立数学模型,及识别方法,去预测待检测样本是癌症还是正常样本.
(2).设计图示 (可视化) 方法,使得在你的数学模型下, 尽量清楚地表现癌症与正常样本在基因表达水平上的区别, 以及癌症样本中是否有子类.
二、 问题的分析
实际生活中,癌症已成为一大难以治愈的病症,许多人因没有早期发现而失去了治疗的机会。本题针对基因进行处理,并得出相应以基因为自变量的方程。那么,若判断某人是不是癌症患者,只要将其基因代入方程中,判断结果的大小,就可以知道这个人是不是病患,则达到预测的目的。
我们建立了两个模型进行预测,首先采用神经网络模型的多层前向神经网络,利用MATLAB软件,对输入层即20个癌症和20个正常样本,及输出层向量(1,0)(即癌症病患)和(0,1)(即正常)做数据处理,求出各个基因的权重,之后可得到一个关于基因为自变量的方程。将待测的20个样本的114个基因分别代入该方程中,求出结果。观察所得结果更趋近(1,0)和(0,1)中的哪个向量,则可判断该样本是否为癌症病患。
另一种方法是建立了多元统计的模型,将两个变量,即癌症病患和正常者分别设为1及0。其114个基因设为输入层。首先针对这20个癌症及20个正常样本的114个基因进行处理,利用统计软件spss,对这114个基因进行判别筛选,最终得到41个与之相关系数最大的基因,这些基因就成为了判断一个人是否为病者的重要因素。通过这个软件,还可以得到这41个基因的非标准化判别方程系数,从而得出非标准化方程D。然后,对于题目给出的20个待测样本,我们将其对应的41个基因表达水平代入到此方程中。若D大于0,则该样本为癌症病者;若D小于0,则该样本为正常者。
三、 符号说明
模型一中,设114个基因标号为1~114,设癌症病者和正常者为变量y1和y2;
(2) 模型二中,设114个基因标号为2~115,设癌症病者和正常者为变量y1和y2;
(3) x1为40*114的矩阵,元素组成是20个癌症与20个正常样本的114个基因;
(4) x2为20*114的矩阵,元素组成是20个待测样本的基因
条件假设
除了这114个基因之外,没有其他基因影响癌症的可能
这114个基因,不会自己发生基因突变,变异成这114种中或之外的其他基因
不考虑环境、生活习惯、饮食卫生等方面,只认为癌症患病由基因决定
模型建立与解答
(1)模型一的建立与解答
我们采用神经网络中的多层前向神经网络的模型,首先提取20个癌症和20个正常的样本基因,作为该神经网络的输入层,并将其基因编号为1~114,有这40个样本,形成一个40*114的x1矩阵(输入层)和2*40的y矩阵(输出层),利用MATLAB,编译程序如下:
load data.txt
data(:,1)=[];
x=data;
y=zeros(2,40);
y(1,1:20)=1;
y(2,21:40)=1;
x1=x(:,1:40);
for i=1:114
maxMin(i,1)=min(x(i,:));
maxMin(i,2)=max(x(i,:));
end
n
文档评论(0)