- 1、本文档共8页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
三种数据挖掘算法在电子病历知识发现中的比较
应用论文
三种数据挖掘算法在电子病历知识发现中
的比较*
牟冬梅 1 任 珂 2
1(吉林大学公共卫生学院 长春 130021)
2(武汉大学信息管理学院 武汉 430072)
摘要: 【目的 】从异构的电子病历数据中发现疾病危险因素, 为数据挖掘与知识发现提供借鉴。【方法 】选取集
各种结构为一身的临床电子病历数据, 利用决策树、逻辑回归和神经网络三种数据挖掘算法分别建立疾病危险
因素预测模型, 对三种预测模型进行比较分析和统计学评价。【结果 】决策树预测模型在查准率、召回率上高于
逻辑回归和神经网络, 在总体性能上决策树最优, 但三者差别不大。【局限 】未对电子病历属性进行优化选择。
【结论 】决策树在危险因素的发现与疾病的预测方面优于逻辑回归和神经网络。研究中建立基于数据挖掘算法的
异构数据源知识发现框架, 为今后领域知识发现和知识库构建以及数据挖掘算法的选择提供一定借鉴和参考。
关键词: 知识发现 电子病历 数据挖掘算法 预测模型
分类号: G202
行数据标准化、规范化, 再利用内容分析、科学计量
1 引 言
分析、社会网络分析等多样化数据分析算法, 通过数
随着大数据(Big Data)概念的提出及大数据时代 据挖掘提取内在的隐性知识, 实现知识发现, 为用户
的到来, 情报学研究范畴已经明显呈现出大数据的典 提供嵌入式的个性化精准化服务。
型特征[1] 。大数据具有的数据量大、处理速度快、数 目前医疗数据是最为复杂的数据, 最能体现大数
据类型繁多和价值密度低这“4V”特征, 为情报学提出 据种类多、来源多、用途多的特征, 本研究选取临床
新挑战, 尤其大数据种类繁多、结构多样、质量参差 电子病历(Electronic Medical Record, EMR)数据, 在情
不齐, 情报学领域信息加工需要向数据清洗、规范集 报学知识发现框架指导下, 利用决策树、逻辑回归和
成和整合不断拓展。美国管理学家罗素 · 艾可构建了 神经网络等数据挖掘算法分别建立疾病的危险因素预
DIKW(Data-Information-Knowledge-Wisdom) 体 系 [2-3], 测模型, 并对三种预测模型进行评价。本研究规范情
Zeleny 区分了DIKW 体系中的各个元素[4], CIO 时代网 报学方法在医学领域知识发现的流程, 探索从复杂的
对其内容与价值进行分析[5], 王曰芬认为文献计量法 数据中找到知识之间有效关联及知识发现的最佳算
和内容分析法是实现 DIKW 转换的关键算法[6] 。DIKW 法, 为今后数据处理和知识发现提供一定借鉴和参考;
体系为情报学提供了巨大的发展空间, 同时也指明情 另一方面, 可以为临床医生的诊断提供数据支持, 为
报学研究的目的和内涵, 情报学需要在数据清洗的基 疾病防控人员提供可视化依据, 对妊高症“预防–诊断–
础上, 通过自然语言处理、概念映射等情报学方法进 治疗–预后”全过程提供科研数据支持; 数据挖掘方法
通讯作者 : 任珂 , ORCID: 0000-0003-3366-1924, E-mail: lansexinghuo@163.com 。
*本文系国家自然科学基金项目“嵌入式知识服务驱动下的领域多维知识库构建”(项目编号 和吉林大学大学生创新创业训练
计划“基于数据挖掘算法的体检数据中脂肪肝危险因素相关性研究”(项目编号: 2015721054)的研究成果之一。
102 现代图书情报技术
总第271 期 2016 年 第6 期
应用于疾病的危险因素研究, 可以加强对医疗大数据 学领域逻辑框架内的知识发现研究[7], 在知识处理流
信息的开发与利用。
您可能关注的文档
最近下载
- 专题02 宇宙中的地球-5年(2020-2024)高考1年模拟地理真题分类汇编(北京专用)(解析版).docx VIP
- 城市绿地分类标准 .pdf VIP
- 营养指导员题库.docx VIP
- 专题01 地球和地图-5年(2020-2024)高考1年模拟地理真题分类汇编(北京专用)(解析版).docx VIP
- 四年级【语文(统编版)】古诗三首(第一课时)课件 .pptx
- 质量管理体系工具统计技术.pptx VIP
- 2022年茅台考试真题及答案——计算机专业.pdf
- 发电机短路试验中转子接地保护误动作分析及关键问题探讨.pdf VIP
- Silvaco傻瓜教程—张林—长安大学—2018.06.pdf
- SpringBoot学习笔记(实用完整版).pdf VIP
文档评论(0)