计算表观遗传学_哈医大《生物信息学基础》课件.ppt.ppt

计算表观遗传学_哈医大《生物信息学基础》课件.ppt.ppt

  1. 1、本文档共123页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
计算表观遗传学_哈医大《生物信息学基础》课件.ppt

迄今实验鉴定人的印迹基因发展缓慢,目前人类基因组中预测的印记基因共有205 个, 其中通过实验验证具有印记表达的有53个;小鼠中预测的印记基因共有90个, 其中72个经实验验证具有印记表达。()。 基因组印记作为一种单等位基因表达的表观遗传现象。很多假设用于解释为什么基因组印记在哺乳动物中进化,但很少能解释他是如何产生的。宿主防御假说认为印记是从细胞内现存的机制沉默插入到基因组中的外源DNA元件发展而来的。然而,由于缺少现存所有分类大规模的基因组资源,哺乳动物基因组的改变伴随印记基因的进化很难定义。预计印记基因占人类基因组的1%,并且至今只发现了一部分。因此,从预测的角度识别印记基因是一种可行的方法。 二、机器学习是挖掘印记基因的有效方法 目前实验测得印记基因的主要方法是利用DNA甲基化和基因表达分析基因的印记情况,只关注染色体的一小段区域。由于基因的单等位表达可能只发生在特定亚型、组织或发育阶段,所以实验确定印记基因面临很多问题。 自从单等位基因和双等位基因不同的重复序列和DNA序列特性的被广泛关注,人们开始利用机器学习的方法预测小鼠和人类基因的印记情况。现在国内外主要预测印记基因的方法是用机器学习方法基于基因的序列特征预测全基因组印记基因。 常用的模式识别方法 支持向量机(SVM) 径向基神经网络(RBF) 隐马尔科夫模型 Logistic回归 主成分分析和二次判别分析 DNA序列特征 CpG岛和GC含量 重复序列 长散在核元件(LINEs) 短散在核元件(SINEs) 简单重复序列 DNA elements 低复杂度重复序列 长末端重复序列(LTRs) 基于主成分分析和二次判别的预测模型 1、计算训练基因编码区的基因组特征 NEWCPGREPORT程序分析CpG二核苷酸的序列,计算CpG岛总数。 http://mobyle.pasteur.fr/cgibin/portal.py?form=newcpgreport Repeat Masker程序分析重复元件,收集重复元件,得到长末端重复序列和简单重复序列的个数。 /cgi-bin/WEBRepeatMasker 2、标准化数据集 应用模式识别方法之前,由于各个变量单位是不同的,为了能够将变 量参与评价计算,需要对其进行规范化处理,通过函数变换将其数值 映射到某个数值区间。用此方法,可以在同一水平比较所有变量。 常用标准化方法: (1)线性函数转换,表达式如下: y=(x-minvalue)/(maxvalue-minvalue) 说明:x、y分别为转换前、后的值,maxvalue、minvalue分别为样本的 最大值和最小值。 (2)对数函数转换,表达式如下: y=log10(x) 说明:以10为底的对数函数转换。 (3)反余切函数转换,表达式如下: y=atan(x)*2/π 3、特征选择 主成分分析(PCA)和二次判别分析(QDA)分析标准化的序列特征数据。 主成分分析是一种多元统计方法。主要思想是降低数据集(代表大量相关变量)的维度,同时保留尽可能多的变量。当数据量过大时,可以利用PCA有哪些信誉好的足球投注网站数据质量和数量上的差别。 二次判别分析(QDA)主要用于预测序列特征集中的成员。预测变量与二次判别相结合可以最好的预测预测组成员,使每一个基因基于它的序列特征可区分为印记基因和非印记基因。 4、构建模型 首先,采用主成分分析技术。获得最好的分类是使用下列特征: GC含量,[bp]%CpG岛,[bp]%简单重复序列和[bp]%长末端重复序列。这表明,分类编码区研究中其他变量是不显著的。 主成分分析结果表明,第一主成分(PC1)的贡献率为49.6%。考虑到第一主成分(PC1)和第二主成分(PC2),累计贡献率达到72%。PC1和PC2可以通过下列方程组表示,这实际上构成了PCA模式识别模型。 (1)PC1=0.535[GC%]+0.511[CGI[bp]%]+0.521[LTR[bp]%]+0.426[SR[bp]%] (2)PC2=-0.425[GC%]-0.467[CGI[bp]%]+0.313[LTR[bp]%]+0.71[SR[bp]%] 然后,用二次判别分析(QDA)建立一个新的模型。QDA也和主成分分析(PCA)密切相关,都在寻找最佳解释数据的最好组合变量。QDA明确试图寻找模型数据集之间的差异(监督模式识别)。而PCA没有考虑到任何类之间差异(非监督模式识别)。 5、模型评估 根据软件的功能,利用内部和外部的验证方法对分类进行评估。 QDA模型,采用内部验证方法称为交叉验证。此方

文档评论(0)

bodkd + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档