网站大量收购独家精品文档,联系QQ:2885784924

医学科研数据挖掘概述讲述.ppt

  1. 1、本文档共33页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
医学科研数据挖掘概述讲述

文本的数据挖掘(Textualmining) 人们很关心的另外一个话题是文本数据挖掘。举个例子,在客户服务中心,把同客户的谈话转化为文本数据,再对这些数据进行挖掘,进而了解客户对服务的满意程度和客户的需求以及客户之间的相互关系等信息。从这个例子可以看出,无论是在数据结构还是在分析处理方法方面,文本数据挖掘和前面谈到的数据挖掘相差很大。文本数据挖掘并不是一件容易的事情,尤其是在分析方法方面,还有很多需要研究的专题。目前市场上有一些类似的软件,但大部分方法只是把文本移来移去,或简单地计算一下某些词汇的出现频率,并没有真正的分析功能。随着计算机计算能力的发展和业务复杂性的提高,数据的类型会越来越多、越来越复杂,数据挖掘将发挥出越来越大的作用。 数据挖掘是一个充满希望的研究领域,是一个可以从数据中有效地提取信息、从信息中及时地发现知识的技术。数据挖掘应用的成功是要求对期望解决问题的领域有深刻的了解,理解数据,了解其过程,才能对结果找出合理的解释。数据挖掘正日益广泛和深入,其发展前景会更加辉煌。 推荐阅读文章 决策树在天津市某区公务员健康状况影响因素分析中的应用。 生物标志物的蛋白组学研究-高通量质谱分析 数据挖掘技术在现场流行病学调查资料中的应用 数据挖掘在疫苗风险监测中的应用研究 心脑血管疾病生化检验数据挖掘和报告解读 Epidemiology Epidemiology 医学科研数据挖掘 流行病学与卫生统计学系 陈大方 联系方式: 公卫楼520房间 电话O) 邮箱:dafangchen@ 尿布 和 啤酒 ——发生在沃尔玛的故事 数据挖掘应用案例之一 关联规则挖掘 关联规则挖掘过程主要包含两个阶段 ,第一阶段从原始资料集合中,找出所有高频项目组。高频的意思是指某一项目组出现的频率相对于所有记录而言,必须达到某一水平。 第二阶段是从高频项目组产生关联规则,即找出最小支持度和最小置信度的关联规则。 ID 项集 1 面包、尿布、牛奶、鸡蛋 2 面包、尿布、啤酒、鸡蛋 3 牛奶、尿布、啤酒、可乐 4 面包、牛奶、尿布、啤酒 5 面包、牛奶、尿布、可乐 6 面包、尿布、啤酒、可乐 在所有的交易纪录资料中,至少有5%的交易呈现尿布与啤酒这两项商品被同时购买的交易行为。在所有包含尿布的交易纪录资料中,至少有70%的交易会同时购买啤酒。 课程内容安排 数据挖掘概述(1) 数据挖掘方法(3) 数据挖掘实例(2) 文章思路分析(1) 数据挖掘概述 数据挖掘产生背景 数据挖掘应用领域 数据挖掘的定义和特点 数据挖掘基本过程 数据挖掘任务 数据挖掘方法 数据挖掘所发现的知识分类 数据挖掘在医学领域的应用 数据挖掘未来研究热点 一、数据挖掘产生背景 在1989年8月举行的第一届Knowledge Discovery in Database (KDD) 国际学术会议上提出。 现实需求 许多领域搜集积累了大量的数据,数据背后隐藏了许多具有决策意义的信息,为更好的利用这些数据,需要对其进行更高层次的分析。 基础技术条件 (1) 计算机技术和网络时代(强大的多处理器计算机)。 (2) 超大规模数据库的出现(海量数据搜集 )。 (3)数据挖掘算法 。 二、数据挖掘应用领域 Banking (金融方面) 13%(1) Bioinformatics/Biotech (生物信息) 10%(2) Direct Marketing/Fundraising (直销市场) 10%(2) eCommerce/Web (电子商务) 5% Entertainment/News (零售业/市场营销) 1% Fraud Detection (过程控制/质量监督) 9%(3) Insurance (保险) 8%(4) Investment/Stocks (投资) 3% Manufacturing (制造行业) 2% Medical/Pharma (医药) 6%(5) Retail (零售) 6%(5) Scientific data (科学数据) 9%(3) Security (军事方面安全) 2% Supply Chain Analysis (物流) 1% Telecommunications (远程通信) 8%(4) Travel (运输) 2% Other (其它) 5% 三、数据挖掘的定义和特点 定义 从大量的、不完全的、有噪声的、模糊

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档