数据挖掘概述解读.ppt

  1. 1、本文档共38页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
重点讲解一:关联分析 例2:医疗处方分析。 分析患有某类疾病的病人的处方数据,找出处方数据中各项之间的关联关系。医生利用医疗领域的知识,来分析这些规则的可信程度。对于那些有价值的规则,可以放到规则库中供自己或其他医生治疗患有同类疾病的病人。 中医在研究新方剂的时候做大量的临床试验。方剂是由单味药组成,在这些试验中结果中,可能就蕴含着单味药之间的某种关联。 重点讲解一:关联分析 白术 ^ 橘皮炙 ^ 甘草 ^ 获荃==人参(Supp=42,Con=89.5%),主治荣卫气虚、脏腑怯弱,心腹胀满,肠鸣泄泻,呕哆吐逆,大宜服之。 据病人患病史进行关联序列分析;如:脑梗塞==高血压病 III 期,即病人患疾病脑梗塞的前提下,接下来患疾病高血压病 III 期的情况。 病人病案中记载了患病的详细信息,通过分析得出的模式,在治疗患有前提条件中疾病的病人时,就要注意或直接检查病人是否同时也患有后件中的疾病。医生在治疗过程中可以同时考虑疾病间的关联,采取合理的治疗方案。 重点讲解二:聚类分析 聚类分析数据对象,而不考虑已知的类标记。对象根据最大化类内的相似性、最小化类间的相似性的原则进行聚类或分组,使得每个组内的对象具有很高的相似性。而与其它组中的对象差别很大。聚类分析方法适用于对孤立点的检测及用于探讨样本间的内部关系,从而对样本结构做出合理的评价。 重点讲解二:聚类分析 例子:有研究者利用聚类方法分析流行病学因素对肺癌患者临床医学状况的影响。 首先从 SEER 的数据库中选取 21758 例肺癌病例,每一例数据包含 23 个流行病学特征属性和 22 个临床医学状态特征属性,继而根据流行病学特征属性的相似程度将病例数据划分成 20 类,比较各类别之间的临床医学状态特征属性的差异,在此基础上还可更进一步分析各类流行病学因素对肺癌患者临床医学状况的不同影响。 重点讲解二:聚类分析 聚类分析是根据所选样本间关联的标准将其划分为几个组,同组内的样本具有较高的相似度,不同组的则相异。聚类分析方法适用于对孤立点的检测及用于探讨样本间的内部关系,从而对样本结构做出合理的评价。 有研究者利用聚类方法分析流行病学因素对肺癌患者临床医学状况的影响。 首先从 SEER 的数据库中选取 21758 例肺癌病例,每一例数据包含 23 个流行病学特征属性和 22 个临床临床医学状态特征属性,继而根据流行病学特征属性的相似程度将病例数据划分成 20 类,比较各类别之间的临床医学状态特征属性的差异,在此基础上还可更进一步分析各类流行病学因素对肺癌患者临床医学状况的不同影响。 重点讲解三:分类 分类:利用恰当的算法,对训练集进行类型区分规律的发现,并给出类型模型结果的过程。 训练集:一组分类的、随机选取数据库记录集合,是分类模型建立过程中的分析对象。相对于测试数据来说训练集是与之无关的。 测试数据对用训练数据训练得的模型(由训练数据进行数据建模)进行测试,若所测的数据在模型上的精准度高,即超过某一标准,则认为这个模型可用,可以用在其他分类上面。 重点讲解三:分类 例1:病人收治效益评估。 从住院期长度和住院期间的医疗费用两项指标入手,先进行住院病人群体的分类挖掘,基于分类挖掘的结果进行二次挖掘(特征总结挖掘)。将有价值的挖掘结果纳入智能决策数据库中,当有病人申请住院时,管理者可以随时检索与当前病人最相似的特征规则来判断该病人未来的住院期长度和住院期间的医疗费。 管理者:能够将更有价值的资源应用到最有效益的病人身上,使之创值最大化。 病人:预先知晓自己未来的住院期长短、费用,以及最终的康复状况,起到辅助咨询的作用。 重点讲解三:分类 例2:病人分类。 根据病人的年龄、性别、住院天数、临床诊断、病症、手术、疾病严重程度及转归等因素,在已有病人数据的基础上,利用数据挖掘中的决策树以及聚类分析等技术,对患者进行细分。 医生:清楚的了解患者的特征,才能更好地开展诊断治疗工作。 医院管理者:只有清楚了解了患者(从某种意义上可以把患者看成是医院的客户),才能为患者提供更好的服务,并为他们实施不同的管理治疗方案和不同的收费标准。 * 人们开始考虑:“如何才能不被信息淹没,而是从中及时发现有用的知识、提高信息利用率?” * 目前的数据库系统虽然可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。为了充分利用现有信息资源,从海量数据中找出隐藏的知识,数据挖掘技术应运而生并显示出强大的生命力。 数据库系统虽可高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。 如何从一棵棵树木了解整个森林?从数据矿山中找到蕴藏的知识金块?--数据挖掘 * 目前的数据库系统虽

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档