- 1、本文档共9页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Hadoop平台氢分子生物医学数据仓库分析与实现
基于Hadoop平台氢分子生物医学数据仓库分析与实现
摘要: 氢分子生物医学技术的发展方兴未艾,大数据相关技术成为氢分子生物医学领域的必威体育精装版驱动力。依据氢分子生物医学科研团队需求,构建氢分子生物医学数据仓库模型,在数据中心环境下,使用Hadoop(分布式存储技术基础框架)建立氢分子生物医学数据仓库,充分利用虚拟化和集群的威力,提高数据仓库的高速运算和存储分析能力。围绕Hadoop生态圈及其技术,实现了不同数据来源的氢分子生物医学数据提取、转换和加载,变为同构的多维数据,开展数据挖掘与分析。通过基础医学研究与计算机技术相结合,为氢分子生物医学临床及科研提取更多有价值的信息。
【关键词】氢分子 医学数据 数据仓库Hadoop
近年来,我国氢分子生物医学研究不断发展,临床科学研究和基础研究水平逐步提高,同时国内氢健康产业不断发展,相关厂家己达到600余家,相应的氢分子生物医学数据和产业数据迅速积累,这些数据中必定蕴含着大量未被发掘有价值的信息。氢分子生物医学数据类型为文本、数字、图像或者基因等,具有多维和异构等特征。当前,氢分子生物医学数据仓库的相关分析研究还很少见。
传统的数据库对具体的业务数据进行处理,当对多个数据库的数据进行处理分析时,需要使用到数据仓库技术,数据仓库对操作性数据展开处理,通过对数据进行ETL等一系列过程处理,实现数据的信息采集和分析处理。在大数据时代,数据仓库的重要性更胜以往。
大数据是近年来随着以Hadoop为代表的一系列分布式计算框架的产生发展才流行起来。Hadoop是一个平台,在它之上可以开发和运行大规模数据的软件。从一个实例中我们可以看出它的优势:在一个10TB的医学数据文件中,找出词语“高密度脂蛋白”的个数,最直接的办法是按文件顺序查找每个词语,并进行统计,我们假设从磁盘到内存的数据传输率为每秒100MB,那么在单一计算机上将这10TB的数据读入内存需要27.7个小时。但是我们如果使用分布式虚拟化技术,把数据分散到10台虚拟机上,每台只需1TB的数据,总的时间为2.7个小时。如果我们用100台虚拟机,这个任务只需要0.27个小时。可见Hadoop分布式处理和存储数据优势十分明显。
我校氢生物医学科研团队积累了大量的科研数据,数据来源多样,从而在大数据主流的背景下,有必要在数据中心环境下,使用数据仓库和Hadoop平台技术,充分利用虚拟化和集群的威力,提高数据仓库的高速运算和存储分析能力,将这些数据转换为同构的数据,通过数据挖掘技术,找出数据之间的关联,规律和趋势,推动氢分子生物医学的进一步发展。
1 总体架构设计
氢分子生物医学数据仓库环境包括操作型系统和数据仓库系统两大部分,系统总体架构图如图1所示。
操作型系统数据由业务数据组成,我校氢生物医学研究团队的科研临床业务数据来源多样非单一,既有仪器设备直接产生的数据,又有科研管理软件等业务软件录入整理后的数据,还有直接从社区,病患等处采集的临床数据。
数据仓库建立的最为重要的处理过程是ETL过程,由数据抽取、转换和装载过程三个过程紧密相连。经过数据抽取过程,将操作型数据储存到数据仓库中,形成原始数据存储(RDS);在经过数据的转换和转载过程,变为转换后的数据(TDS)。
自动化调度组件的功能是定期自动执行ETL过程。数据目录记录数据仓库中数据的清单。
查询引擎负责运行数据挖掘算法,执行用户查询;最终用户通过可视化的界面得到数据分析结果。
2 数据仓库的构建
2.1 建立氢生物医学科研数据仓库,首先要设计好数据模型
2.1.1 需求分析
本项目需求分为业务需求和技术需求。业务需求是与项目组科研人员充分沟通,了解氢生物科研业务术语和数据来源和类型等;数据仓库从多个数据源抽取数据,技术需求的作用就是确定数据源有哪些,数据需要做哪些转换和数据更新的频率是多少。
2.1.2 逻辑设计
细化氢生物医学研究团队的需求以形成数据元素列表,确定科研主题域,比如代谢组学和蛋白组学属性,创建相应的表,设计出实体关系图,此阶段的任务是发现逻辑对象之间的关系
2.1.3 物理设计
通过构建物理分布模型实现数据仓库的物理设计,通过Hadoop平台实现,将前期设计的概念模型中的表、索引和视图转化为物理数据库。
经过分析,本研究采用维度数据模型来构建氢生物医学数据仓库模型,事实和维度是维度模型的核心概念,事实是对业务数据的度量,维度是观察数据的角度。相应地建立氢生物医学数据仓库不同主题域的事实表和维度表,并声明粒度。
Select s.name as shenqv.info,sun(f.unitsqingshui) from fact_sheqvshi
文档评论(0)