- 1、本文档共8页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
?
?
基于Hadoop的海量图片存储处理系统研究
?
?
程孝孝
摘要:随着计算机视觉与人工智能技术的发展,网络中的图片及视频资源越来越多,海量图片的检索及存储就成为一个重要的现实问题。Hadoop提供的HDFS可以提供可靠的高并发访问,MapReduce计算框架能够并行进行图片的处理,因此对于海量图片的快速存储和处理有巨大帮助。
关键词:Hadoop;海量图片;存储优化;分布式处理
:TP393:A
:1009-3044(2019)10-0221-02
开放科学(资源服务)标识码(OSID):
相对于文字而言,图片资源是一种内容丰富、方便理解的工具,已经深入应用到日常生活的方方面面。随着人工智能技术、计算机视觉技术在各个领域的应用和手机终端的普及,图片数量也已级数级别迅猛增长。在图片资源可以称海量的情况下,如何从海量图片中检索出有用的数据、如何高速的实现图片的存取就是一件有现实意义的研究。
Hadoop开源大数据平台是一个可以处理海量数据的分布式并行计算框架,它提供的HDFS并行文件系统为海量图片的实际存储提供物理平台,MapReduce计算框架可以对海量图片进行并行处理,Hbase可以为海量图片的存储提供多格式的统一管理。
1Hadoop技术
Hadoop是一个基于Java语言的分布式并行框架,包括多个组件,其中最核心的是[1]:(1)HDFS分布式文件系统。可以部署在多台廉价机器上,不仅可以通过组成集群的方式提高硬件资源的利用率,还能够在线添加、删除集群节点,或对分布式文件系统上存储的资源进行各种操作。HDFS能够保证存储数据的安全性及可靠性,其高容错性保证了即使在出现故障时,数据也能够正常的存储和传输。(2)MapReduce计算框架。MapReduce会把大任务分解为多个小任务,然后在每个小任务处理完毕后进行汇总。多个小任务是并行处理的,这种并发执行提高了存储效率。(3)Hbase数据库。存储数据不是通过关系型数据库实现,无须事先定义列的数目及类型,支持列的通道扩展;所有的列存储的数据都是二进制的。
2检索算法及存储优化
图片的检索和图片的存储息息相关,存储图片的目的是为了检索并使用图片,因此图片的检索算法对图片的存储至关重要。
传统的图片存储一般都是通过Oracle等关系型数据库完成,然而传统的数据库在使用时存在一定的不足[2]:(1)数据需要满足表结构指定的类型,而且表结构通常是固定的,可扩展性不佳。(2)海量数据的存储效率比较低,不适合海量图片的高并发快速存取。正是基于这样的原因,在处理海量图片时,传统的图片检索方式主要有两种:基于文本特征的图片检索(TBIR)和基于内容的图片检索(CBIR)。
在数据量不太大时,存储图片时可以直接把每个图片和存储表的地址对应起来。然而,如果数据量比较大的时候,顺序存储表中的存储空间会浪费很多。
哈希检索算法是一种精准的检索算法,它主要包括哈希存储表以及哈希函数两个组成部分。哈希存储表是真正存储图片的存储空间,哈希函数是一种映射關系,指定了按照某规律分布的图片映射到不同的哈希存储表内。通过哈希检索算法检索图片时,需要的时间复杂度会大大降低,从而提高了检索效率。
为了解决海量的图片小文件的存储问题,可以采取不同的优化方案。Hadoop内置两种存储图片小文件的优化方案:SquenceFile以及MapFile。
Hadoop提供了存储二进制文件的机制——SquenceFile。多个小的图片文件可以组合为一个大的SquenceFile大文件,其结构如图1所示:
由图可以看出,SquenceFile文件由一系列键值对组成,其中Key处存放图片文件名,Value处存放图片文件的内容。对于存储海量小的图片文件来说,可以以这种Key/Value形式把若干图片文件写入到SquenceFile文件容器中。例如,假设有1000万张大小为30K的图片,则存放这些图片文件使用的SquenceFile大概为300G。
在实际应用过程中,为了提高网络带宽的传输速率,可以压缩SquenceFile大文件,同时也节省了磁盘空间。值得注意的是,虽然很多图片小文件可以存储到一个大的SquenceFile文件中,但是并没有维护小图片文件在SquenceFile文件中的索引关系,所以如果需要在SquenceFile大文件中检索一个图片文件,则需要遍历整个SquenceFile文件,图片检索效率不太好。
可以把MapFile看做是带索引的SequenceFile,Index部分存储图片文件的索引,Data部分存储图片文件。和SequenceFile类似的是,Data部分也是Key/Value的形式,key存放图片文件的文件名,Value存放图片文件。在需要访问MapFile中的小图片文件时,会先加载In
您可能关注的文档
- 如何上好音乐欣赏课.docx
- 中国国债对经济增长的非对称影响效应研究.docx
- 商贸流通业发展影响因素实证分析.docx
- 大理民族团结进步示范区建设研究.docx
- 市政公用工程项目管理中存在的问题及对策研究.docx
- 小麦麸皮挤压膨化工艺分析.docx
- 山东东营6·16垦利石化常减压生产装置爆炸火灾扑救战例中灭火技术研究.docx
- 全面二孩政策下的益阳市教育战略研究.docx
- 危机式护理管理在妇产科安全管理中的应用探讨.docx
- 仓储精益化管理模式下的电网库存规模长效管控机制研究.docx
- GB/T 39560.10-2024电子电气产品中某些物质的测定 第10部分:气相色谱-质谱法(GC-MS)测定聚合物和电子件中的多环芳烃(PAHs).pdf
- 中国国家标准 GB/T 39560.10-2024电子电气产品中某些物质的测定 第10部分:气相色谱-质谱法(GC-MS)测定聚合物和电子件中的多环芳烃(PAHs).pdf
- 《GB/T 39560.10-2024电子电气产品中某些物质的测定 第10部分:气相色谱-质谱法(GC-MS)测定聚合物和电子件中的多环芳烃(PAHs)》.pdf
- GB/T 39560.302-2024电子电气产品中某些物质的测定 第3-2部分:燃烧-离子色谱法(C-IC)筛选聚合物和电子件中的氟、氯和溴.pdf
- 中国国家标准 GB/T 39560.2-2024电子电气产品中某些物质的测定 第2部分:拆解、拆分和机械制样.pdf
- 中国国家标准 GB/T 39560.302-2024电子电气产品中某些物质的测定 第3-2部分:燃烧-离子色谱法(C-IC)筛选聚合物和电子件中的氟、氯和溴.pdf
- GB/T 39560.2-2024电子电气产品中某些物质的测定 第2部分:拆解、拆分和机械制样.pdf
- 《GB/T 39560.2-2024电子电气产品中某些物质的测定 第2部分:拆解、拆分和机械制样》.pdf
- 《GB/T 39560.303-2024电子电气产品中某些物质的测定 第3-3部分:配有热裂解/热脱附的气相色谱-质谱法(Py/TD-GC-MS)筛选聚合物中的多溴联苯、多溴二苯醚和邻苯二甲酸酯》.pdf
- 中国国家标准 GB/T 39560.303-2024电子电气产品中某些物质的测定 第3-3部分:配有热裂解/热脱附的气相色谱-质谱法(Py/TD-GC-MS)筛选聚合物中的多溴联苯、多溴二苯醚和邻苯二甲酸酯.pdf
文档评论(0)