- 1、本文档共40页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基因表达据分析实验指导
基因表达数据分析实验指导
1.?实验基本情况
2.?实验方法:
2.1?表达谱数据的下载
2.2?将表达谱数据导入matlab软件
2.3?补缺失值
2.4?数据标准化
2.5?差异表达基因筛选
2.6?选择差异表达的基因
2.7对差异表达基因送入功能注释
附?-- Matlab的Microarray Data Analysis
?
1.?实验基本情况
实验目的:
掌握和了解常用的基因表达分析过程,包括数据下载、数据预处理、差异表达分析和基因功能注释。了解GEO、SMD、Matlab软件和WebGestalt数据库的使用。
实验方法:
详见下面的描述。
实验作业:
每位同学从GEO或SMD数据库上下载一套表达谱数据,进行数据预处理,差异表达基因分析或聚类分析等数据分析过程(依据具体问题操作,arraytool或matlab或其他软件均可),基因功能注释(WebGestalt、GO、KEGG等数据库)。
实验实例分析
=====================================================================
2.?实验方法:
2.1?表达谱数据的下载
2.1.1?从GEO数据库上下载表达谱数据
1)?网址及数据库概述
GEO主页:/geo/
GEO数据库中包含四种类型的条目,分别以GPLXXXX(检测平台),GSMXXXX(生物样本),GSEXXXX(基因表达系列),GDSXXXX(基因表达数据集)表示。其中GPLXXXX有SAGE、MPSS、单色芯片(Affymetrix)、双色芯片(spotcDNA/DNA)几种;GSEXXXX与GDSXXXX的区别在于:GSE是实验者一次一起提交的数据集,包含原始的数据文件,而GDS是GEO数据库的维护者根据样本和实验平台的特性进行整理的,与原有的GSE数据可能有样本量上的差异;一般GDS都有对应的GSE数据;GDS不包含单独的原始数据,如果想获得其原始数据,需要链接到他的GSE网页上下载;GDS样本间的可比性更强,如果有GDS就先分析GDS。
2)数据下载
GEO可提供两种数据的下载,一种是整理好的soft格式数据,是一个数据矩阵,包含多个基因在多个条件下的表达值,如GDS2220.soft;另一种是单独的数据文件,每张芯片一个数据表格,如GSE3519_family.xml文件夹里的文件,就是对应GDS2220这次实验的原始数据。另外还有一个GDS2220.annot数据是提供基因描述的。具体的下载方式如下:
在GEO主页上(图1),可以通过浏览(browse)或query中输入疾病名字,如风湿性关节炎(rheumatoid?arthritis)在Datasets后,点击go进行有哪些信誉好的足球投注网站,结果如图2。
图1. GEO的主页
图2.GEO的有哪些信誉好的足球投注网站结果
之后点击你感兴趣的GDS集合,如GDS2220,就进入每套数据的页面了(图3)。
图3.GDS2220数据的浏览界面
在图3中,点击下拉菜单中的DataSet?SOFT file,就能下载GDS2220.soft文件;点击Annotation SOFT file就可以下载GDS2220.annot文件;点击seriers?family?miniml?file就可以下载GSE3519_family.xml文件夹,但这个速度较慢,这里有个小窍门,大家可以在迅雷中新建一个下载任务,粘贴地址:?/pub/geo/DATA/MINiML/by_series/GSE139/GSE139_family.xml.tgz?,这里GSE139是可以替换的,比如要下载GDS2220配套的数据,就直接把两个GSE139都替换成GSE3519就可以直接下载了;点击series family soft file下载的文件与GDS2220.soft类似,只是样本是GSE3519的数据,可能和GDS2220的样本不同,这里是相同的。
也可以通过以下方式寻找特殊平台的数据。
3)?文件描述
(a)GDS22.soft
该文件从上到下分为三个部分:第一部分,数据集合基本描述,文字形式,以!或#开头;第二部分,表格的表头,如“ID_REF??????????????????IDENTIFIER??????GSM80309?????????GSM80310?????????GSM80311?????????GSM80312?????????GSM80313?????????GSM80314?????????GSM80315????????GSM80316?????????GSM80317”,以tab键分割,表示下面的数据部分每一列的含义;第三部分,数据,如GDS2220.soft中第一列为每一个基因的编号,第二列是基因名字,第三列是GSM
文档评论(0)