网站大量收购独家精品文档,联系QQ:2885784924

基于Y染色体DNA甲基化构建男性年龄推断模型.pdf

基于Y染色体DNA甲基化构建男性年龄推断模型.pdf

此“医疗卫生”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共55页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

中文摘要

基于Y染色体DNA甲基化构建男性年龄推断模型

摘要

目的:年龄是法庭科学中个体特征刻画的关键环节。当现场生物物证

与DNA数据库中记录无法比中或缺少其它有效线索时,年龄推断有助于

缩小排查范围,提供侦察方向。DNA甲基化被认为是目前最理想的年龄

推断生物分子标志物,但研究多利用常染色体甲基化位点与不同年龄之间

的定量统计关系。若涉及混合斑,如男女混合血斑,现有的DNA甲基化

年龄推断模式并不适用。利用男性特异性Y染色体上的甲基化位点进行

混合斑中男性个体年龄的定向推断,可能是解决这一难题的途径之一。本

研究通过数据库筛选中国汉族男性年龄相关的Y染色体甲基化位点,并

利用机器学习方法建立基于Y染色体DNA甲基化的年龄推断模型。

方法:

1.利用文献及公共数据库数据,筛选中国汉族男性Y染色体年龄相

关CpG位点

通过文献初步筛选年龄相关Y染色体CpG位点,提取GEO数据库

GSE42861、GSE106648两个数据集中候选CpG的β值和年龄信息进行

Spearman相关性分析,保留其中P0.05的位点。选择在两个数据集中重

叠的位点作为“优先集”;两数据集中不重叠的,按P值从小到大排序,

排名靠前的各5个位点作为“补充集”。

2.构建基于Y染色体年龄相关CpG位点的机器学习模型,进行年龄

推断模拟和验证

选择上述“优先集”中的CpG位点,利用GSE42861和GSE106648

数据集作为训练集,构建支持向量机、随机森林、Xgboost、KNN回归、

Lasso回归、Ridge回归、弹性网络回归、逐步线性回归、多元线性回归

等九种机器学习模型,利用GSE59509数据集作为独立测试集,评估构建

模型的准确性。

3.建立DNA甲基化复合检测体系,对河北汉族男性血液样本进行分

型检测,利用机器学习算法评估年龄推断方法的可行性

利用筛选出的Y染色体年龄相关CpG位点,建立基于Agena

1

中文摘要

MassARRAY平台的iPLEX方案的复合检测体系,并对98名不同年龄

(16-70岁)的河北汉族男性血液样本进行检测。利用甲基化率与年龄信

息构建支持向量机、逐步线性回归、多元线性回归、随机森林、XGboost、

KNN回归等六种机器学习模型,采用十折交叉测试的方法评估模型的准

确性。

结果:

1.利用文献和数据库数据筛选出20个Y染色体年龄相关CpG位点。

其中“优先集”中的10个位点分别为ccc

c、c、c、c、c、

c和c;“补充集”中的10个位点分别为

c、c、c、c、c、

cccc和c。

2.基于“优先集”中的10个位点,利用中国男性人群GSE42861、

GSE106648两个数据集数据,建立了Y染色体DNA甲基化年龄推断模型,

并在亚裔群体(韩国)GSE59509数据集中得到了验证。最佳模型为SVM

线性核模型,其RMSE为9.28岁,R2为0.45,MAE为7.75岁。

3.建立了DNA甲基化复合检测体系,体系中10个有效CpG位点中

包括“优先集”位点5个,“补充集”位点5个。对98名不同年龄的河北

汉族男性无关个体血液样本成功检测。经十折交叉测试,最佳模型为SVM

的径向核模型,其平均RMSE为11.3岁,平均R2为0.34,平均MAE为

9.1岁。

您可能关注的文档

文档评论(0)

dongbuzhihui + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档