浅谈医学大数据(中)..doc

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
浅谈医学大数据(中).

浅谈医学大数据(中) 陈遵秋 陈漪伊 本文上接:浅谈医学大数据(上) 2. 数据分析框架(传统数据分析框架,大数据分析框架) 医疗大数据有着前面第一节提到的所有特征。在医疗大数据带来各种优势的同时,大数据随之带来的各种特性使得传统的数据处理和数据分析方法及软件捉襟见肘,问题多多。在大数据时代出现之前,受限于数据量的可获得性和计算能力的有限性,传统的数据管理和分析采用着不同的思路和流程。传统上,对于问题的研究建立在假设的基础上进行验证,进而研究事物的相关因果性,希望能回答“为什么”。而在大数据时代,海量数据的涌现提供了从不同角度更细致更全面观察研究数据的可能,从而打开了人们的好奇心,探索欲望,人们想知道到数据告诉了我什么,而不仅仅是我的猜想是否被数据验证了。人们越来越多地用大数据挖掘各种感兴趣的关联,非关联等相关性,然后再进一步比较,分析,归纳,研究(“为什么”变成一个选项而不是唯一终极目标)。大数据与传统数据思路上的不同导致了分析流程的不同,如图一所示: 图一: 面对海量的数据和不同的分析思路,大数据的管理和分析与传统数据分析的差异日益加大。回答特定问题的单一预设结构化数据库明显不能完全胜任处理大数据的海量及混杂等问题。数据的混杂多样性具体可以从一些调查数据中表现出来。SAS的一份调查报告显示机构内的非结构化数据最多可以占到总数据量的85%,而这些非数字,非结构化的数据却必须被量化分析和用到决策分析中 (Troester, 2012)。另一份2013年进行的SAS调查报告显示在461个提供完整反馈信息的机构中只有26%的机构表示他们所拥有的大数据是结构化的 (Russom, 2013)。 此外,在机构中,分析的数据一般不会只有一个单一的来源。Alteryx的调查报告显示在200家被调查的机构中只有6%的机构表示他们的数据是只有一个来源,最为普遍的情况是5-10个来源,具体分布如图二 (Alteryx, 2014)。调查中还显示90%的被调查样本表示有数据整合问题,37%表示需要等其他小组提供数据,30%表示不能得到他们想要的数据,一般估计是一个数据分析师的60%到80%的时间是花在数据处理准备阶段上的 (Alteryx, 2014)。 图二: 由此可见有效的数据管理,数据库建立及数据分析流程的重要性。传统的数据管理的过程包括抽取(Extraction),转换(Transformation)和载入(load)。通过ETL,可以赋予数据一种合适恰当的结构用于特定的分析发现。具体数据准备分析流程如图三所示:1)抽取单个或多个来源的数据 。2)净化,格式化,标准化,聚合,添加,或遵循其他特定的数据处理规则。3)载入处理完的数据到特定的数据库或储存为特定的文件格式。4)采用各种方法进行数据分析。 图三: ETL的中心内容仍旧适用于大数据,但由于大数据的大量性和多样性对数据库和数据管理及处理方法的要求越来越高,也越来越复杂,这样线性处理整个数据变得相当耗费人力,物力,和时间。此外,大数据的快速性,易变性也使得把数据储存在单一的中央数据库变的不太可行。在这种情况下,最流行的思路是把数据分割处理,也就是把数据储存到多个储存节点(比如网络数据库),在每个节点单独处理数据(甚至处理完就接着进行初步分析,但处理的程度依客户具体问题而调整),然后再汇总整合到一起,提供给单个或多个数据库,接着根据需要选择合适的分析方法获取有用结果。ETL贯穿于整个大数据管理分析的流程中。图四演示了大致的大数据管理分析流程及一些大数据处理分析平台工具的名字。 图四: SAS的数据仓库研究院(TDWI)针对现今存在的大数据处理分析平台工具进行了一项调查以帮助人们在选择软硬件进行大数据分析时能做出更好的决策。针对大数据技术,特点,和使用者操作,调查提供了三个选择:1)现在使用中,并且会继续使用。2)会在三年中开始使用。3)没有计划使用。图五左侧显示了对于各种大数据分析平台工具,被调查人员的回复比例。图五的右侧显示了平台工具可能的潜在成长和对采用此工具做出承诺的被调查人员比例。 图五: 根据潜在成长和承诺的综合考量,此调查还进一步把大数据分析平台,工具分成4组:第一组为适度的承诺,中度到强的成长潜力;第二组为中度至强有力的承诺,适度增长潜力;第三组为弱到中度的承诺,适度增长潜力;第四组为中度至强有力的承诺,弱增长潜力。图六显示了这些组别的内容分布。限于篇幅,本文不详细介绍所列的每一平台工具的具体内容,感兴趣的读者可以参考文献获取更详细的介绍。 图六: 图五和图六都显示了最流行的平台和数据处理方式为开源免费的Hadoop和MapReduce。伴随着他们的潜在成长和承诺程度,可以预见,Hadoop和MapReduce正在并会继续推动和促进大数据的处理和应用。

文档评论(0)

s4c2bg5I + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档