基于Spark大数据平台的老年病风险预警模型.docx

基于Spark大数据平台的老年病风险预警模型.docx

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

?

?

基于Spark大数据平台的老年病风险预警模型

?

?

摘要:针对我国社会老龄化进程加快背景下老年病风险预测的需求,设计基于数据挖掘思想的患病风险预警模型。采用决策树模型,根据居民的年龄、性别、BMI指数、家族病史等多项数据进行树结构的构建与修剪,同时引入Bagging、Boosting和RotationForest等方法进行树的训练。最后,使用Spark中的SQL和MLlib实现并行化的决策模型。仿真结果表明,风险预警的准确率可以达到98.07%。此外,集成学习规模对于模型预测的精度影响较小,决策树的剪枝可在不损失预测精度的前提下降低模型的复杂度。

关键词:决策树;集成学习;Spark;疾病预测

:TP311???文献标志码:A

RiskEarlyWarningModelofGeriatricDiseaseBasedon

SparkBigDataPlatform

TANXiao

(SchoolofEconomicsandManagement,ShanxiInstituteofTechnology,Xian710300)

Abstract:Aimingatthedemandofriskpredictionofgeriatricdiseases,thispaperproposesadiseaseriskearlywarningmodelbasedondatamining.Firstly,adecisiontreemodelisusedtoconstructandprunetreestructurebasedonage,gender,BMIindex,familyhistoryandotherdataofresidents.Atthesametime,somemethodssuchasBagging,BoostingandRotationForestareusedtotrainthetree.Finally,theparalleldecisionmodelisrealizedbyusingSQLandMLlibinSpark.Thesimulationresultsshowthattheaccuracyofriskearlywarningcanreach98.07%.Inaddition,thescaleofensemblelearninghaslittleinfluenceontheaccuracyofmodelprediction.Thepruningofdecisiontreecanreducethecomplexityofmodelwithoutlossofpredictionaccuracy.

Keywords:Decisiontree;Ensemblelearning;Spark;Diseaseprediction

0引言

随着我国老龄化速度的加快,老年人的健康状况得到了更多的关注。心血管疾病、糖尿病等老年病,成为危害老年人身体健康的主要杀手。以糖尿病为例,必威体育精装版研究表明,我国的糖尿病患者人数已超过1亿人。对于老年病,及早的预警可帮助老年人及时改善生活、作息习惯,避免病情的产生和恶化。近年来,由于医疗信息化程度的加深,积累了大量的临床医疗诊断、身体指标等医学数据,医学的发展也进入大数据时代。在此背景下,如何挖掘医疗数据中的有用价值成为了重要的研究课题之一[1-3]。

针对老年病的预警,本文结合机器学习领域的决策树算法,根据居民的年龄、性别、BMI指数、家族病史等多项数据进行老年人糖尿病发病概率的预测,使用Spark大数据处理平台构建了老年病风险预警模型[4-5]。该模型中,引入集成学习的Bagging、Boosting和RotationForest等方法,提高了模型训练的效率、模型预测的准确度,证实数据挖掘在医疗大数据背景下的可行性。

1模型概述

1.1模型结构

本文使用的模型结构流程图如图1所示。

从图1中可看出,模型包括数据采集、数据预处理、建立决策树模型、集成学习等几个步骤[6-7]。

在数据处理部分,需要对获取的数据进行清洗和数据格式的转换,同时,设计一定的规范进行数据表达和存储。本文重点介绍的是系统使用的决策树模型,并在简单的决策树模型上引入时下流行的Bagging、Boosting和RotationForest等集成学习方法,提升决策树的分类性能,增加

文档评论(0)

138****8091 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档