网站大量收购闲置独家精品文档,联系QQ:2885784924

临床医学大数据分析与挖掘—基于Python的机器学习与临床决策 第9章 糖尿病遗传风险预测.ppt

临床医学大数据分析与挖掘—基于Python的机器学习与临床决策 第9章 糖尿病遗传风险预测.ppt

此“医疗卫生”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共28页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据,成就未来 * 大数据挖掘专家 * 大数据挖掘专家 大数据,成就未来 第9章 糖尿病遗传风险预测 * 1 数据准备 目录 目标分析 2 特征工程 3 模型构建 4 性能度量 5 糖尿病是一组以高血糖为特征的代谢性疾病。高血糖则是由于胰岛素分泌缺陷或其生物作用受损,或两者兼有引起。糖尿病时长期存在的高血糖,导致各种组织,特别是眼、肾、心脏、血管、神经的慢性损害、功能障碍。进食过多,体力活动减少导致的肥胖是2型糖尿病最主要的环境因素,使具有2型糖尿病遗传易感性的个体容易发病。1型糖尿病患者存在免疫系统异常,在某些病毒如柯萨奇病毒,风疹病毒,腮腺病毒等感染后导致自身免疫反应,破坏胰岛素β细胞。 背景 心血管病、糖尿病等慢性疾病,每年导致的死亡人数占总死亡人数的80%,每年用于慢病医疗费用占中国公共医疗卫生支出的比例超过13%。从2017年的第一份世卫组织《全球糖尿病报告》中显示,1980年~2014年期间,全球糖尿病患者数量从1.08亿增加到了4.22亿,其中18岁以上的成年糖尿病患病率从4.7%增加到了8.5%,中等收入和低收入国家的糖尿病患病率上升速度更快。作为一种常见慢性疾病,糖尿病目前无法根治 ,需要通过科学有效的干预、预防和治疗,来降低发病率和提高患者的生活质量。 背景 数据集中包含两个部分,即训练集和测试集,部分特征名已经做脱敏处理。训练集中包含年龄、性别、各项体检指标以及预测目标血糖值。而测试集相对于训练集则缺少了对应的血糖值,也就是所期望预测到的值。文件共包含42个特征,包含数值型、字符型、日期型等众多数据类型,如表所示。 数据说明 表名 特征名称 特征名称 训练集 ? 测试集 id 乙肝e抗原 性别 乙肝e抗体 年龄 乙肝核心抗体 体检日期 白细胞计数 *天门冬氨酸氨基转换酶 红细胞计数 *丙氨酸氨基转换酶 血红蛋白 *碱性磷酸酶 红细胞压积 *r-谷氨酰基转换酶 红细胞平均体积 *总蛋白 红细胞平均血红蛋白量 白蛋白 红细胞平均血红蛋白浓度 *球蛋白 红细胞体积分布宽度 白球比例 血小板计数 甘油三酯 血小板平均体积 总胆固醇 血小板体积分布宽度 高密度脂蛋白胆固醇 血小板比积 低密度脂蛋白胆固醇 中性粒细胞% 尿素 淋巴细胞% 肌酐 单核细胞% 尿酸 嗜酸细胞% 乙肝表面抗原 嗜碱细胞% 乙肝表面抗体 血糖 基于机器学习的糖尿病遗传风险预测的总体流程如图所示。 分析目标 糖尿病遗传风险预测的具体步骤如下。 抽取部分个人体检数据作为训练数据。 对抽取的数据进行数据探索、数据清洗、特征工程等操作。 结合交叉验证和lightGBM算法构建模型。 对模型结果进行分析,并进行模型评价。 分析目标 1 数据准备 目录 目标分析 2 特征工程 3 模型构建 4 性能度量 5 数据探索 1. 绘制图形分析性别、年龄与血糖关系 血糖正常值是指人空腹的时候血糖值在3.9~6.1毫摩尔/升,所以将血糖大于6.7定义为1,血糖小于3.9定义为0。 性别与高低血糖有关系,有高低血糖的年龄基本为10岁以上,以及高血糖主要分布在年龄40岁以上。 数据探索 年龄、性别与血糖的相关性高,而乙肝e抗原、乙肝核心抗体等与血糖相关性不高。 数据探索 2. 各特征与血糖的相关性分析 性别 年龄 *天门冬氨酸氨基转换酶 *丙氨酸氨基转换酶 *碱性磷酸酶 *r-谷氨酰基转换酶 *总蛋白 0.141627 0.250452 0.091724 0.124791 0.151119 0.140024 0.047471 白蛋白 *球蛋白 白球比例 甘油三酯 总胆固醇 高密度脂蛋白胆固醇 低密度脂蛋白胆固醇 0.000252 0.053508 -0.020111 0.249543 0.163226 -0.084771 0.167802 尿素 肌酐 尿酸 乙肝表面抗原 乙肝表面抗体 乙肝e抗原 乙肝e抗体 0.154036 0.105233 0.027109 0.023518 -0.052420 0.000895 -0.022560 乙肝核心抗体 白细胞计数 红细胞计数 血红蛋白 红细胞压积 红细胞平均体积 红细胞平均血红蛋白量 0.009570 0.093266 0.129056 0.152096 0.126097 -0.009815 0.062811 红细胞平均血红蛋白浓度 红细胞体积分布宽度 血小板计数 血小板平均体积 血小板体积分布宽度 血小板比积 中性粒细胞% 0.144198 -0.070134 -0.076223 0.026312 0.036732 -0.066777 0.047878 淋巴细胞% 单核细胞% 嗜酸细胞% 嗜碱细胞% ? ? ? -0.053933 0.001301 0.005460 0.023881 ? ? ? 通过数据探索发

您可能关注的文档

文档评论(0)

dllkxy + 关注
实名认证
内容提供者

本文库主要涉及建筑、教育等资料,有问题可以联系解决哦

版权声明书
用户编号:5213302032000001

1亿VIP精品文档

相关文档