大数据技术原理与应用-第三章-分布式文件系统HDFS.ppt

大数据技术原理与应用-第三章-分布式文件系统HDFS.ppt

  1. 1、本文档共39页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据技术原理与应用-第三章-分布式文件系统HDFS.ppt

3.7.1 HDFS常用命令 实例: hadoop fs -ls path:显示path指定的文件的详细信息 hadoop fs -mkdir path:创建path指定的文件夹 3.7.1 HDFS常用命令 实例: hadoop fs -cat path:将path指定的文件的内容输出到标准输出(stdout) hadoop fs -copyFromLocal localsrc dst:将本地源文件localsrc复制到路径dst指定的文件或文件夹中 3.7.2 HDFS的Web界面 在配置好Hadoop集群之后,可以通过浏览器登录“http://[NameNodeIP]:50070”访问HDFS文件系统 3.7.3 HDFS常用Java API及应用实例 HDFS常用Java API (1)org.apache.hadoop.fs.FileSystem:一个通用文件系统的抽象基类,可以被分布式文件系统继承。所有可能使用Hadoop文件系统的代码都要使用到这个类 (2)org.apache.hadoop.fs.FileStatus:一个接口,用于向客户端展示系统中文件和目录的元数据,具体包括文件大小、块大小、副本信息、所有者、修改时间等。可通过FileSystem.listStatus()方法获得具体的实例对象 (3)org.apache.hadoop.fs.FSDataInputStream:文件输入流,用于读取Hadoop文件 3.7.3 HDFS常用Java API及应用实例 (4)org.apache.hadoop.fs.FSDataOutputStream:文件输出流,用于写Hadoop文件 (5)org.apache.hadoop.conf.Configuration:访问配置项。所有的配置项的值,如果在core-site.xml中有对应的配置,则以core-site.xml为准,否则以core-default.xml中相应的配置项信息为准 (6)org.apache.hadoop.fs.Path:用于表示Hadoop文件系统中的一个文件或者一个目录的路径 (7)org.apache.hadoop.fs.PathFilter:一个接口,通过实现方法PathFilter.accept(Path path)来判定是否接收路径path表示的文件或目录 本章小结 分布式文件系统是大数据时代解决大规模数据存储问题的有效解决方案,HDFS开源实现了GFS,可以利用由廉价硬件构成的计算机集群实现海量数据的分布式存储 HDFS具有兼容廉价的硬件设备、流数据读写、大数据集、简单的文件模型、强大的跨平台兼容性等特点。但是,也要注意到,HDFS也有自身的局限性,比如不适合低延迟数据访问、无法高效存储大量小文件和不支持多用户写入及任意修改文件等 块是HDFS核心的概念,一个大的文件会被拆分成很多个块。HDFS采用抽象的块概念,具有支持大规模文件存储、简化系统设计、适合数据备份等优点 HDFS采用了主从(Master/Slave)结构模型,一个HDFS集群包括一个名称节点和若干个数据节点。名称节点负责管理分布式文件系统的命名空间;数据节点是分布式文件系统HDFS的工作节点,负责数据的存储和读取 HDFS采用了冗余数据存储,增强了数据可靠性,加快了数据传输速度。HDFS还采用了相应的数据存放、数据读取和数据复制策略,来提升系统整体读写响应性能。HDFS把硬件出错看作一种常态,设计了错误恢复机制 本章最后介绍了HDFS的数据读写过程以及HDFS编程实践方面的相关知识 主讲教师和助教 单位:厦门大学计算机科学系 E-mail: ziyulin@ 个人网页:/linziyu 数据库实验室网站: 主讲教师:林子雨 单位:厦门大学计算机科学系数据库实验室2013级硕士研究生(导师:林子雨) E-mail: caiminxing@126.com 助教:蔡珉星 欢迎访问《大数据技术原理与应用——概念、存储、处理、分析与应用》 教材官方网站:/post/bigdata Department of Computer Science, Xiamen University, June, 2015 图片显示的实例为: (1)利用mkdir命令在计算机上创建hdfs目录tempDir (2)利用ls命令显示机器上现有的hdfs文件 * 图片展示的实例: (1)利用copyFromLocal命令从本地计算机上传tempfile文件夹里的所有文件到计算机底下的tempDir文件夹下 (2)利用ls命令显示计算机中的tempDir文件夹里的所有文件 (3)利用cat命令打印出计算机中的tempDir文件夹里的所有文件的内容 * 《大数据技术原理与应用》

文档评论(0)

wendang_12 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档