- 1、本文档共18页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
基因芯片数据预处理;基因芯片(genechip),又称DNA微阵列(microarray),是由大量DNA或寡核苷酸探针密集排列所形成的探针阵列,其工作的基本原理是通过碱基互补配对检测生物信息。;基因芯片的实验流程(双通道);单通道/双通道基因芯片实例;杂交完成后,要对基因芯片进行“读片”,即应用激光共聚焦荧光扫描显微镜,对基因芯片表面的每个位点进行检测。;计算机“读片”机理;数据预处理分析流程:算法
(以cDNA芯片为例);1探针水平数据(probe-leveldata)的获得
提取生物样品的mRNA并反转录成cDNA,同时用荧光素或同位素标记。在液相中与基因芯片上的探针杂交,经洗膜后用图像扫描仪捕获芯片上的荧光或同位素信号,由此获得的图像就是基因芯片的原始数据(rawdata),也叫探针水平数据。
获取探针水平的数据是芯片数据处理的第一步,然后需要对其进行预处理(pre-processing),以获得基因表达数据(geneexpressiondata)。基因表达数据是芯片数据处理的基础。
基因芯片探针水平数据处理的R软件包有affy,affyPLM,affycomp,gcrma等。
;预处理
2.1背景(background)处理
背景处理即过滤芯片杂交信号中属于非特异性的背景噪音部分。一般以图像处理软件对芯片划格后,每个杂交点周围区域各像素吸光度的平均值作为背景,但此法存在芯片不同区域背景扣减不均匀的缺点。也可利用芯片最低信号强度的点(代表非特异性的样本与探针结合值)或综合整个芯片非杂交点背景所得的平均吸光值做为背景。
背景处理之后,我们可以将芯片数据放入一个矩阵中:;其中,各字母的意义如下:;2.2数据清洗(datacleaning)
经过背景校正后的芯片数据中可能会产生负值,还有一些单个异常大(或小)的峰(谷)信号(随机噪声)。对于负值和噪声信号,通常的处理方法就是将其去除,常见数据经验型舍弃方法有:标准值或奇异值舍弃法;变异系数法;前景值<200;前景值-平均数/前景值-中位数<80%等等。然而,数据的缺失对后续的统计分析(尤其是层式聚类和主成分分析)有致命的影响。Affy公司的芯片分析系统会直接将负值修正为一个固定值。
对数据???删除,通常是删去所在的列向量或行向量。一个比较常用的做法是,事先定义个阈值M。若行(列)向量中的缺失数据量达到阈值M,则删去该向量。若未达到M,有两种方法处理,一是以0或者用基因表达谱中的平均值或中值代替,另一个是分析基因表达谱的模式,从中得到相邻数据点之间的关系,据此利用相邻数据点估算得到缺失值(类似于插值)。填补缺失值(k临近法):利用与待补缺基因距离最近的k个临近基因的表达值来预测待填补基因的表达值。根据邻居基因在样本中的加权平均估计缺失值。
;2.3提取表达值;此方法用于标准化同一块芯片上杂交的两种样品,并且建立于以下的假设之上:在近似的两个样品中,虽然基因有上调和下调,但一些基本的基因(如管家基因)的表达量是近似相同的。由此得出一个近似概率密度公式:比率T=R/G(R和G分别是芯片上第K个点的红光和绿光的强度),经过迭代算法处理得到一个平均表达比率及其可信限,用于数据的标准化计算。;;经过预处理,探针水平数据转变为基因表达数据。为了便于应用一些统计和数学术语,基因表达数据仍采用矩阵形式。;FalseDiscoveryRate(FDR)
在基因芯片的实验中,每一个基因/探针,都是一个独立的实验。基因芯片:高通量,1,000个基因/探针。因此,无论怎么比较,总会有一些基因会是统计显著性差异表的——可能是随机产生的。
如何评估表达差异基因预测的有效性?FDR=p-value*No.ofGenes
例:1,000个探针的双通道芯片,以p-value0.01为域值,发现7个上调基因,5个下调基因,分析结果是否具有统计学意义?计算:FDR=0.01*1,000=10(随机)。7个上调基因,5个下调基因10,因此上例计算的结果无统计学意义。
FDR必须远小于发现的差异表达基因数目。
;另一种常用基因芯片——寡核苷酸表达谱芯片的数据预处理:由于探针长度较短(20-25bp),采用匹配/失配探针对方法,即设计一个特异的寡核苷酸(PM匹配)、同时设计一个非特异性的寡核苷酸探针(MM失配),该探针仅仅在中间位置有一个碱基替换。用PM与MM之间的差值作为信号强度,来解决寡核苷酸之间非特异性杂交的噪声影响。一般设计11-20对探针来检测一个转录本。
文档评论(0)