生物信息学讲义——基因芯片数据讲解.ppt

生物信息学讲义——基因芯片数据讲解.ppt

  1. 1、本文档共66页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
生物信息学讲义——基因芯片数据讲解

第七章 基因芯片数据分析;第一节 引言 Introduction; 第二节 芯片平台及数据库 General Microarray Platform and Database ;  寡核苷酸芯片类似于cDNA芯片,但是在探针的设计上优于cDNA芯片,它的探针并不是来源于cDNA克隆,而是预先设计并合成的代表每个基因特异片段的约50mer左右长度的序列,然后将其点样到特定的基质上制备成芯片,从而克服了探针序列太长导致的非特异性交叉杂交和由于探针杂交条件变化巨大导致的数据结果的不可靠。 ;三、原位合成芯片 ;四、光纤微珠芯片(Bead Array);五、基因表达仓库 Gene Expression Omnibus,GEO 六、斯坦福微阵列数据库 The Stanford Microarray  Database,SMD 七、其他常用基因表达数据库 ArrayExpress、CGED;第三节 基因芯片数据预处理 General Microarray Data Type and Database ;(二) 原位合成芯片;二、对数转换;三、数据过滤;四、补缺失值;(二)数据补缺方法;2. k近邻法;3. 回归法 4. 其他方法;五、数据标准化;(二)运用哪些基因进行标准化处理 芯片上大部分基因(假设芯片上大部分基因在不同条件下表达量相同) 不同条件间稳定表达的基因(如持家基因) 控制序列(spiked control) 在不同条件下表达水平相同的合成DNA序列或外源的DNA序列。;1. 片内标化(within-slide normalization) (1) 全局标化(global normalization); (2) 荧光强度依赖的标化(intensity dependent normalization); (3) 点样针依赖的标化(within-print-tip-group normalization) ;(4) 尺度调整(scale adjustment) 为什么 调整不同栅格(grids)间的数据离散度 方法:计算不同栅格的尺度因子 ;2. 片间标化(multiple-slide normalization) 线性标化法(linear scaling methods) 与芯片内标化的尺度调整(scale adjustment) 方法类似 非线性标化法(non-linear methods) 分位数标化法(quantile normalization) 两张芯片的表达数据的分位数标化至相同,即分布于对角线上 ;3. 染色互换实验(dye-swap experiment ) 的标化 实验组 对照组 芯片1 cy5(R) cy3(G’) 芯片2 cy3(G) cy5(R’) 前提假设:c︽c’ 方法: ; 1. 提取定性信号 (1)对每个探针对计算R R = (PM – MM ) / (PM + MM ) (2)比较R???定义的阈值Tau(小的正值,默认值为0.015 ). (3) 单侧的Wilcoxon’s Signed Rank test产生p值,根据p值定义定量信号值 Present call Marginal call Absent call ;2. 提取定量信号 (1)分析步骤 获取探针水平数据 背景值效正 标准化处理 探针特异背景值效正 探针集信号的汇总; ; ;;;;;; 前面提及的标准化方法仅效正了数据分布的中心,在不同的栅格间log-Ratios 的方差也不同。;;第四节 差异表达分析 Analysis of Differentially Expression Gene ;二、t检验法 ;三、方差分析 ;四、SAM (significance analysis of microarrays);(二) 分析步骤 计算统计量 扰动实验条件,计算扰动后的基因表达的相对差异统计量 计算扰动后的平均相对差异统计量 ; 确定差异表达基因阈值:以最小 的正值和最大的负值作为统计阈 值,运用该阈值,统计在值中超 过该阈值的假阳性基因个数,估 计假阳性发现率FDR值。 通过调整FDR值的大小得到差异 表达基因。;五、信息熵;第五节 基因芯片数据的聚类分析 Cluster Analysis of Microarray Data ;二、基因表达谱数据的聚类;三、距离尺度函数;四、聚类算法 (

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档