- 1、本文档共112页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基因表达数据分析 生物信息学
(三)PAM方法 (prediction analysis for microarray) 基本思想 每类样本的质心向所有样本的质心进行收缩,即收缩每个基因的类均值,收缩的数量由值决定。当收缩过程发生时,某些基因在不同类中将会有相同的类均值,这些基因就不具有类间的区别效能。 基因1 基因2 分析步骤 计算统计量 对公式经过变换得到 收缩各类的均值 判断新样本类别 (四)决策树 基本思想 决策树又称多级分类器,它可以把一个复杂的多类别分类问题转化为若干个简单的分类问题来解决。 决策树的结构:一个树状的结构,内部节点上选用一个属性进行分割,每个分叉都是分割的一个部分,叶子节点表示一个分布。 决策树应用于肿瘤基因表达谱的分类分析 分析步骤:提取分类规则,进行分类预测 在构造决策树的过程中最重要的一点是在每一个分割节点确定用哪个属性来分类(或分裂) 这就涉及到关于使用什么准则来衡量使用A属性比使用B属性更合理 决策树分类算法 output 训练集 决策树 input 衡量准则 信息增益——information gain 基尼指数——Gini index 决策树的修剪 消除决策树的过适应问题 消除训练集中的异常和噪声 (五)分类效能评价 1.构建训练集和检验集 n倍交叉验证(n-fold cross validation) Bagging(bootstrap aggregating) 无放回随机抽样 留一法交叉验证 (leave-one-out cross validation,LOOCV) 2.分类效能 灵敏度(sensitivity,recall) 特异性(specificity) 阳性预测率(positive predictive value,precision) 阴性预测率(negative predictive value) 均衡正确率(balanced accuracy) 正确率(correct or accuracy) 第五节基因表达谱数据分析软件 Software Tools for Gene Expression Profile Analysis 一、R程序示例 R程序 说明 a = 49 ;sqrt(a) 赋值可用“=”,也可用“-〉”;R的语句可以写在一行,用“;”分开 seq(0, 5, length=6) seq 是R的一个函数;具体可以输入命令“? seq”查找seq的具体使用方法 plot(sin(seq(0, 2*pi, length=100))) plot 是画图函数, a = The dog ate my homework a是一个字符串 sub(dog,cat,a) sub的功能是将a中的“dog”用“cat”替代, 结果为The cat ate my homework“ a = (1+1==3);a a 是一个逻辑变量, 结果为:FALSE R程序 说明 x - 1:6 “:”在这里是"from : to"的意思,结果是1,2,3,4,5,6。 dim(x)-c(3,4); x dim函数是维数的意思,这里的功能是将x变为3X4维的基阵 a = c(7,5,1); a[2] C函数的功能是组合,这里将3个数组合赋值给a, a[2]是5 doe = list(name=john,age=28,married=F) doe是list, 与向量的差别是可以由不同的变量组合 doe$name; doe$age R语言中,特殊符号$的作用 二、BioConductor命令示例 BioConductor 命令 说明 source(/biocLite.R);biocLite(c(affy, limma)) 首先在R环境下安装affy, limma两个程序包。 library(affy) library(limma) 将两个软件包装载,前者用于Affymetrix预处理;后者用于差异表达分析 phenoData - read.AnnotatedDataFrame(system.file(extdata, pdata.txt, package=arrays)) 将实验数据的表型信息,读给变量phenoData, 数据在安装好的系统里 BioConductor 命令 说明 celfiles - system.file(extdata, package=arrays) eset - justRMA(phenoData=phenoData, celfile.path=celfiles) 读入数据,利用RMA函数对数据进行标准化处理 combn - factor(paste(pData(phenoData)[,1], pData(phenoD
您可能关注的文档
最近下载
- 创建全国双拥模范城工作汇报材料.pdf VIP
- 3.38码上放心操作规程.docx VIP
- 拣货方式审核.docx VIP
- 感知风俗情暖冬至.pptx VIP
- 2025云南省中职职教高考职业技能考试机械类专业理论模拟卷【⑶】.doc VIP
- 珠海城市职业技术学院招聘事业编制心理健康教育专职教师笔试真题2023.docx VIP
- 2023年珠海城市职业技术学院招聘事业编制教师考试真题.pdf VIP
- 2025云南省中职职教高考职业技能考试机械类专业理论模拟卷【⑧】.docx VIP
- 珠海城市职业技术学院招聘事业编制教师真题.pdf VIP
- 2021年珠海城市职业技术学院招聘事业编制教师笔试试题及答案.docx VIP
文档评论(0)