- 1、本文档共19页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
09-第九章分布式数据工具Pig概论
第九章 分布式数据分析工具Pig Pig的定义 Pig 是一个针对大数据集进行分析的平台,拥有完整的数据操作规范——Pig 语言,也称为 Pig Latin,Pig 最初是由 Yahoo!研发用于对大量数据进行分析,后来贡献给 Apache 软件基金会,目前已成为 Apache 的顶级项目。Pig Latin 包括一系列对数据进行操作的过程,是一种类 SQL 的面向数据流的语言,提供了对数据进行加载、合并、过滤、排序、分组、关联以及支持对数据集使用函数功能或用户自定义函数功能。Pig 既可以运行在单机环境下,此时所有的 Pig 进程运行在一个单独的本地 JVM 上,也可以运行在 Hadoop 分布式环境下,Pig 程序根据数据集大小被转换成一系列 MapReduce 作业运行在 Hadoop 平台上。 9.1 Pig 的安装 Pig 目前已成为 Apache 的顶级项目,其安装过程非常简单,但需要具备以下条件。 (1)预安装好类 UNIX 系统,如 Linux。 (2)类 UNIX 系统中已安装好 Java 6 及其后期版本,并设置环境变量 JAVA_HOME 指向 Java 安装根目录。 (3)已部署 Hadoop 稳定版本的集群环境,并设置环境变量 HADOOP_HOME 指向 Hadoop 安装根目录。 (4)若使用 Pig 操作 Python 编写的流式(Streaming)UDFs,需要安装 Python。 9.1 Pig 的安装 从网站 /releases.html 下载必威体育精装版的 Pig 稳定版本,下载后解压到相应安 装目录,解压后会生成子目录 pig-x.y.z(x.y.z 为版本号) : 设置环境变量,编辑文件~/.bashrc 或~/.bash_profile 把 Pig 的可执行文件所处路径添加到PATH 变量中,方便 Pig 的使用和管理: 9.1 Pig 的配置 Pig 构建于 Hadoop 平台上, 是简化数据处理操作对 HDFS 和 MapReduce 更高层次的抽象, 其底层使用 HDFS 做存储支撑、MapReduce 作任务执行器。因此,若 Pig 运行于 Hadoop 集群 环境只需要知道 Namenode 进程和 JobTracker 进程所在机器,而这两个进程所在位置可以通 过读取 Hadoop 配置文件获取。在 Hadoop 当前版本中,与 Namenode 进程和 JobTracker 进程 相关的配置信息位于 core-site.xml、hdfs-site.xml 和 mapred-site.xml3 个配置文件中,配置文 件所在目录为${HADOOP_HOME}/etc/hadoop。 9.1 Pig 的配置 因此,修改操作 Pig 命令的用户所属环境变 量配置文件~/.bash_profile 或~/.bashrc,执行下述操作。 (1)在文件末尾添加环境变量 PIG_CLASSPATH 或 HADOOP_CONF_DIR 指向 $HADOOP_HOME/etc/hadoop,即让 PIG_CLASSPATH 或 HADOOP_CONF_DIR 指向 Hadoop 配置文件所在路径,用于 Pig 获取 Namenode 和 JobTracker 所在位置。 (2)将 Pig 的 bin/目录添加到 PATH 变量中,方便使用 Pig 相关命令。 9.2 Pig 基本概念 1. Pig Latin 标识符 2. 大小写规则 3. 关系、包、元组、字段之间的关系 4. Pig Latin 语句 9.3 Pig 保留关键字 1. 数据类型 2. Nulls 3. Pig 相关命令 使用 pig -e 命令选项,后面可以跟简单的 Pig 操作命令 利用 Pig Latin 提供的交互式 shell 工具 Grunt 可以更方便地操作 Pig 命令 4. Pig 内置函数(built-in function) (1)可重入函数(Eval Functions (2)导入/存储函数(Load/Store Functions) (3)数学计算函数(Math Functions) (4)字符串处理函数(String Funtions (5)日期函数(Datetime Functions) (6)Tuple、Bag 和 Map 函数 9.3 Pig 保留关键字—数据类型 9.4 使用 Pig 1. Pig 命令行选项 (1)-e 或-execute 选项 (2)-h 或-help 选项 (3)-h properties 选项 (4)-P 或-propertyFile 选项 (5)-version 2. Pig 的两种运行模式 (1)本地模式(Local) (2)MapReduce 模式 3. Pi
文档评论(0)