基于Y染色体DNA甲基化构建男性年龄推断模型.pdf

下载文档

0
0
约7.43万字
约 55页
2025-03-04 发布于江苏
举报
版权申诉
保障服务

基于Y染色体DNA甲基化构建男性年龄推断模型.pdf

此“医疗卫生”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、本文档共55页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

中文摘要

基于Y染色体DNA甲基化构建男性年龄推断模型

摘要

目的：年龄是法庭科学中个体特征刻画的关键环节。当现场生物物证

与DNA数据库中记录无法比中或缺少其它有效线索时，年龄推断有助于

缩小排查范围，提供侦察方向。DNA甲基化被认为是目前最理想的年龄

推断生物分子标志物，但研究多利用常染色体甲基化位点与不同年龄之间

的定量统计关系。若涉及混合斑，如男女混合血斑，现有的DNA甲基化

年龄推断模式并不适用。利用男性特异性Y染色体上的甲基化位点进行

混合斑中男性个体年龄的定向推断，可能是解决这一难题的途径之一。本

研究通过数据库筛选中国汉族男性年龄相关的Y染色体甲基化位点，并

利用机器学习方法建立基于Y染色体DNA甲基化的年龄推断模型。

方法：

1.利用文献及公共数据库数据，筛选中国汉族男性Y染色体年龄相

关CpG位点

通过文献初步筛选年龄相关Y染色体CpG位点，提取GEO数据库

GSE42861、GSE106648两个数据集中候选CpG的β值和年龄信息进行

Spearman相关性分析，保留其中P0.05的位点。选择在两个数据集中重

叠的位点作为“优先集”；两数据集中不重叠的，按P值从小到大排序，

排名靠前的各5个位点作为“补充集”。

2.构建基于Y染色体年龄相关CpG位点的机器学习模型，进行年龄

推断模拟和验证

选择上述“优先集”中的CpG位点，利用GSE42861和GSE106648

数据集作为训练集，构建支持向量机、随机森林、Xgboost、KNN回归、

Lasso回归、Ridge回归、弹性网络回归、逐步线性回归、多元线性回归

等九种机器学习模型，利用GSE59509数据集作为独立测试集，评估构建

模型的准确性。

3.建立DNA甲基化复合检测体系，对河北汉族男性血液样本进行分

型检测，利用机器学习算法评估年龄推断方法的可行性

利用筛选出的Y染色体年龄相关CpG位点，建立基于Agena

中文摘要

MassARRAY平台的iPLEX方案的复合检测体系，并对98名不同年龄

（16-70岁）的河北汉族男性血液样本进行检测。利用甲基化率与年龄信

息构建支持向量机、逐步线性回归、多元线性回归、随机森林、XGboost、

KNN回归等六种机器学习模型，采用十折交叉测试的方法评估模型的准

确性。

结果：

1.利用文献和数据库数据筛选出20个Y染色体年龄相关CpG位点。

其中“优先集”中的10个位点分别为ccc

c、c、c、c、c、

c和c；“补充集”中的10个位点分别为

c、c、c、c、c、

cccc和c。

2.基于“优先集”中的10个位点，利用中国男性人群GSE42861、

GSE106648两个数据集数据，建立了Y染色体DNA甲基化年龄推断模型，

并在亚裔群体（韩国）GSE59509数据集中得到了验证。最佳模型为SVM

线性核模型，其RMSE为9.28岁，R2为0.45，MAE为7.75岁。

3.建立了DNA甲基化复合检测体系，体系中10个有效CpG位点中

包括“优先集”位点5个，“补充集”位点5个。对98名不同年龄的河北

汉族男性无关个体血液样本成功检测。经十折交叉测试，最佳模型为SVM

的径向核模型，其平均RMSE为11.3岁，平均R2为0.34，平均MAE为

9.1岁。

您可能关注的文档

文档评论（0）

dongbuzhihui + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

基于Y染色体DNA甲基化构建男性年龄推断模型.pdf