网站大量收购闲置独家精品文档,联系QQ:2885784924

DTCC2016-开源的虚拟大数据存储系统Alluxio (前Tachyon)的功能与使用案例介绍.pdf

DTCC2016-开源的虚拟大数据存储系统Alluxio (前Tachyon)的功能与使用案例介绍.pdf

  1. 1、本文档共55页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
开源的虚拟大数据存储系统Alluxio (前Tachyon)的功能与使用案例介绍 顾 荣 Alluxio项目 PMC Maintainer 南京大学 PASA大数据实验室博士研究生, 2016/05/14@DTCC 2016 (Beijing) 联系方式:gurongwalker@ 微博:顾荣_NJU 内容 ? Alluxio简介 ? Alluxio是什么 ? Alluxio 的发展历程 ? Alluxio 的系统框架与原理 ? Alluxio 的重要特性与适用场景 ? Alluxio 的实际应用案例介绍 是什么 ? Alluxio是世界上第一个以内存为中心(memory- centric) 的虚拟的分布式存储系统。 ? Alluxio介于计算框架和现有的存储系统之间,为 大数据软件栈带来了显著的性能提升。 Alluxio(前Tachyon) 的最初诞生 ? 问题 ? 传统大数据分析流水线中通过磁盘文件系统(如HDFS)来共享 数据成为影响分析性能的瓶颈; ? 大数据计算引擎的处理进程(Spark 的Executor,MapReduce的 Child JVM等)崩溃出错后,缓存的数据也会全部丢失; ? 基于内存的系统存储数据冗余,对象太多导致Java GC 时间过长; ? 解决 ? Alluxio为大数据分析流水线提供内存级数据共享服务 ? 内存中的数据存放在Alluxio 中,即使计算引擎处理进程崩溃, 内存中的数据仍然不会丢失 ? 存放在Alluxio 内存中的数据不会冗余,同时GC开销大大减小 Alluxio 的发展演变 ? 如今,Alluxio 已发展为一个通用的分布式存储系 统,将不同的计算框架和存储系统紧密联系起来。 Alluxio 的发展 ? 2012年12月,Alluxio(Tachyon)发布了第一个版本0.1.0 ? 2016年4月,Alluxio 的必威体育精装版发布版本为1.0.1,正在开发1.1.0版本 Alluxio 的发展 ? 自2013年4月开源以来,已有超过50个组织机构的200多 贡献者参与到Alluxio 的开发中。包括阿里巴巴,Alluxio , 百度,卡内基梅隆大学,IBM,Intel,南京大学,Red Hat,UC Berkeley和Yahoo 。 ? 活跃的开源社区 内容 ? Alluxio简介 ? Alluxio 的系统框架与原理 ? 整体架构 ? 文件组织 ? 读写行为 ? 容错机制 ? Alluxio 的重要特性与适用场景 ? Alluxio 的实际应用案例介绍 Alluxio整体架构 ? Master-Worker ? Master ? 管理全部元数据 Master ? 监控各个Worker状态 Client ? Worker ? 管理本地MEM、SSD和HDD Worker1 Worker2 Worker3 ? Client MEM MEM MEM ? 向用户和应用提供访问接口 SSD SSD SSD

文档评论(0)

精品资源 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档