基于Hadoop的海量医学图像检索系统.docVIP

下载本文档

3
0
约7.23千字
约 11页
2016-10-08 发布于北京
举报
版权申诉

基于Hadoop的海量医学图像检索系统.doc

1、本文档共11页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Hadoop的海量医学图像检索系统.doc

基于Hadoop的海量医学图像检索系统　　摘要：为了提高海量医学图像检索效率，针对单节点医学图像检索系统的缺陷，提出一种基于Hadoop的海量医学图像检索系统。首先采用Brushlet变换和局部二值模式算法提取医学示例图像特征，并将图像特征库存储于Hadoop分布式文件系统（HDFS）；然后采用Map将示例图像特征与特征库的特征进行匹配，采用Reduce接收各Map任务的计算结果，并按相似度大小进行排序；最后根据排序结果找到医学图像的最优检索结果。实验结果表明，相对于其他医学图像检索系统，Hadoop的医学图像检索系统减少了图像存储和检索时间，提高了图像检索速度。　　关键词：医学图像；检索算法； Brushlet变换；局部二值模式；分布式系统　　中图分类号：TP181； TP391.41 文献标志码：A 　　0引言　　随着数字化影像技术发展，医学图像急剧增多，如何对这些医学图像进行有效管理和组织，以便为临床诊断提供服务，是医学工作者面临的难题[1]。基于内容的医学图像检索（ContentBased Medical Image Retrieval，CBMIR）具有检索速度快、精度高等优点，在医学教学、辅助医学诊断、医学资料管理等领域得到了广泛应用[2]。　　CBMIR算法需要计算示例医学图像特征与特征库特征的相似度，这是一个典型的数据密集型计算过程[3]。当特征库中特征数量比较大时，传统浏览器/服务器模式（Browser/Server，B/S）单节点的检索效率难以满足图像的实时性要求，且系统的稳定性、可扩展性差[4]。云计算（cloud computing）可以将任务分配到各个工作节点共同完成任务，具有分布式、并行处理能力，为医学图像检索提供了一种新的研究思路[5]。Hadoop分布式文件系统（Hadoop Distributed File System，HDFS）是一个可扩展的分布式文件系统，它可以运行于廉价的普通硬件上，得到许多公司支持，如：Google、Amazon、Yahoo！等，在不了解底层细节的情况下，利用Map/Reduce函数轻松实现并行计算，在大规模数据处理领域得到了广泛的应用[6-8]。利用Hadoop的优点，可以较好地解决医学图像检索过程中检索效率低的难题，而且目前国内相关研究较少[9]。　　为了提高医学图像检索效率，针对B/S单节点系统存在的不足，提出一种基于Hadoop分布式的医学图像检索系统。实验结果表明，Hadoop的医学图像检索系统减少了图像检索时间，提高了图像检索效率，对于海量医学图像检索优势更加明显。　　1Hadoop平台　　Hadoop平台是当今应用最为广泛的开源云计算编程平台，它是一个在集群上运行大型数据库处理应用程序的开放式源代码框架，支持使用MapReduce分布式调度模型来实现资源的虚拟化管理、调度和共享[10]。　　1.1HDFS体系结构　　一个HDFS集群包含一个主服务器（NameNode）和多个块服务器（DataNode），被多个客户端（Client）访问。　　NameNode负责管理文件系统的名字空间以及客户端对文件的访问；DataNode负责管理它所在节点上的数据存储，并负责处理文件系统客户端的读写请求，在NameNode统一调度下进行数据块的创建、删除和复制[11]。HDFS把文件切割成块，这些块分散地存储于不同的DataNode上，每个块还可以复制数份存储于不同的DataNode上，因此具有较高的容错性和对数据读写的高吞吐率。　　1.2MapReduce 　　MapReduce是一个编程模型，用于进行大数据量的计算。对于大数据量的计算，通常采用的处理手法就是并行计算：首先要将一个逻辑上完整的大任务分解成若干个子任务，系统根据任务的信息采用适当的策略把不同的任务分配到不同资源节点上去运行，当所有子任务处理结束，则完成整个大任务的一次处理，最后将处理结果传给用户[12]。在Map阶段，每个Map任务对分配给它的数据进行计算，然后按照Map的输出key值将结果数据映射到对应的Reduce任务中；在Reduce阶段，每个Reduce任务对接收到的数据作进一步聚集处理，得到输出结果。为使MapReduce的数据处理流程更加形象，Map/Reduce模型的计算流程如1所示。　　2Hadoop的分布式医学图像检索　　2.1提取Brushlet域特征　　Brushlet变换是为解决角分辨问题的图像多尺度几何分析工具，二维Brushlet具有一定的方向结构和振动频率范围，能够完全重构，其基函数的结构大小和分析窗口的大小成反比。具有相位参数的二维Brushlet基表示了其方向，因此较好地反映了图像的方向信息，能对