- 1、本文档共12页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
?
?
基于Spark大数据平台的老年病风险预警模型
?
?
摘要:针对我国社会老龄化进程加快背景下老年病风险预测的需求,设计基于数据挖掘思想的患病风险预警模型。采用决策树模型,根据居民的年龄、性别、BMI指数、家族病史等多项数据进行树结构的构建与修剪,同时引入Bagging、Boosting和RotationForest等方法进行树的训练。最后,使用Spark中的SQL和MLlib实现并行化的决策模型。仿真结果表明,风险预警的准确率可以达到98.07%。此外,集成学习规模对于模型预测的精度影响较小,决策树的剪枝可在不损失预测精度的前提下降低模型的复杂度。
关键词:决策树;集成学习;Spark;疾病预测
:TP311???文献标志码:A
RiskEarlyWarningModelofGeriatricDiseaseBasedon
SparkBigDataPlatform
TANXiao
(SchoolofEconomicsandManagement,ShanxiInstituteofTechnology,Xian710300)
Abstract:Aimingatthedemandofriskpredictionofgeriatricdiseases,thispaperproposesadiseaseriskearlywarningmodelbasedondatamining.Firstly,adecisiontreemodelisusedtoconstructandprunetreestructurebasedonage,gender,BMIindex,familyhistoryandotherdataofresidents.Atthesametime,somemethodssuchasBagging,BoostingandRotationForestareusedtotrainthetree.Finally,theparalleldecisionmodelisrealizedbyusingSQLandMLlibinSpark.Thesimulationresultsshowthattheaccuracyofriskearlywarningcanreach98.07%.Inaddition,thescaleofensemblelearninghaslittleinfluenceontheaccuracyofmodelprediction.Thepruningofdecisiontreecanreducethecomplexityofmodelwithoutlossofpredictionaccuracy.
Keywords:Decisiontree;Ensemblelearning;Spark;Diseaseprediction
0引言
随着我国老龄化速度的加快,老年人的健康状况得到了更多的关注。心血管疾病、糖尿病等老年病,成为危害老年人身体健康的主要杀手。以糖尿病为例,必威体育精装版研究表明,我国的糖尿病患者人数已超过1亿人。对于老年病,及早的预警可帮助老年人及时改善生活、作息习惯,避免病情的产生和恶化。近年来,由于医疗信息化程度的加深,积累了大量的临床医疗诊断、身体指标等医学数据,医学的发展也进入大数据时代。在此背景下,如何挖掘医疗数据中的有用价值成为了重要的研究课题之一[1-3]。
针对老年病的预警,本文结合机器学习领域的决策树算法,根据居民的年龄、性别、BMI指数、家族病史等多项数据进行老年人糖尿病发病概率的预测,使用Spark大数据处理平台构建了老年病风险预警模型[4-5]。该模型中,引入集成学习的Bagging、Boosting和RotationForest等方法,提高了模型训练的效率、模型预测的准确度,证实数据挖掘在医疗大数据背景下的可行性。
1模型概述
1.1模型结构
本文使用的模型结构流程图如图1所示。
从图1中可看出,模型包括数据采集、数据预处理、建立决策树模型、集成学习等几个步骤[6-7]。
在数据处理部分,需要对获取的数据进行清洗和数据格式的转换,同时,设计一定的规范进行数据表达和存储。本文重点介绍的是系统使用的决策树模型,并在简单的决策树模型上引入时下流行的Bagging、Boosting和RotationForest等集成学习方法,提升决策树的分类性能,增加
您可能关注的文档
最近下载
- 2023届高考数学一轮复习专题:三角函数有关w的值及w取值范围的求法题型总结.docx
- 2024新湘艺版音乐七年级上册第二单元 汉族民歌 课件.pptx
- 教师资格证小学科目二默写本《教育知识与能力》.pdf VIP
- 江苏省淮安市淮安区2022-2023学年统考八年级上学期期中数学试卷 .docx
- GB-T17167-1997企业能源计量器具配备和管理导则.pdf
- 【优质】某地区一级水电站建设项目可行性研究报告-优秀甲级资质可研报告180页.doc
- 灶具成品检测标准.pdf
- 腹股沟疝(共27张PPT).pptx
- 部编版小学语文五年级上册第四单元整体解读与教学建议.doc
- 幼儿园 中班数学《10以内的倒数》.ppt VIP
文档评论(0)