网站大量收购独家精品文档,联系QQ:2885784924

hive实现原理-weibo-大数据文档资料.docx

  1. 1、本文档共129页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

1Hivc实现原理

1

新人培训课程|从入门到精通

作者:周忱|淘宝综合产品微博:@MinZhou

邮箱:zhouchen.zm@

1Hivc实现原理

1

??????

???

花名:周忱(chén)真名:周敏

微博:@MinZhou

Twitter:@minzhou2010年6月加入淘宝

曾经淘宝HadoopHive研发组Leader

目前专注分布式实时计算HiveContributor

自由、开源软件热爱者

关于我

TaobaoJavaTeam|zhou

TaobaoJavaTeam|zhouchen.zm

TaobaoJavaTeam|zhou

TaobaoJavaTeam|zhouchen.zm

1Hivc实现原理

1

??????

???

花名:周忱(chén)真名:周敏

微博:@MinZhou

Twitter:@minzhou2010年6月加入淘宝

曾经淘宝HadoopHive研发组Leader

目前专注分布式实时计算HiveContributor

自由、开源软件热爱者

关于我

Hivc

Hivc实现原理

1

如何用MR实现下面语句?

pv_users

pageidagecount

pageid

age

count

1

25

1

2

25

2

1

32

1

pageid

age

1

25

2

25

1

32

2

25

SELECTpageid,age,count(1)

FROMpvusers

GROUPBYpageid,age;

Hivc

Hivc实现原理

1

就是这么简单

pv_users

pageid

age

1

25

2

25

pageid

age

1

32

2

25

Map

key

key

value

1,25

1

2,25

1

key

key

value

1,32

1

2,25

1

Shuffle

Shuffle

Sort

key

key

value

1,25

1

1,32

1

key

key

value

2,25

1

2,25

1

p

p

Reduce

p

p

Hivc

Hivc实现原理

1

就是这么简单

Map

key

key

value

1,25

1

2,25

1

key

key

value

1,32

1

2,25

1

Shuffle

Shuffle

Sort

key

key

value

1,25

1

1,32

1

key

key

value

2,25

1

2,25

1

Reduce

pageid

age

count

1

25

1

1

32

1

pageid

pageid

age

count

2

25

2

Hivc

Hivc实现原理

1

为什么要学习Hive的实现?

?Hive学习曲线平缓,适合非专业人员,集团内部普遍使用

?一道HiveSQL将转换为多少道M/R作业?

?我们怎么加快HiveSQL的执行速度?

?编写HiveSQL的时候我们可以做些什么?

?Hive怎么将HiveQL转换成M/R作业?

?Hive将会采用什么样的优化方式?

Hivc

Hivc实现原理

1

组件分析

Hivc

Hivc实现原理

1

Hive架构执行流程

Client

Client

MetastoreHadoop

Metastore

Hadoop

Driver

Driver

Compiler

Compiler

TaobaoJavaTeam|zhou

TaobaoJavaTeam|zhouchen.zm

TaobaoJavaTeam|zhou

TaobaoJavaTeam|zhouchen.zm

Hivc

Hivc实现原理

1

Hive执行流程

?编译器将HiveSQL转换成一组操作符(Operator)

?操作符是Hive的最小处理单元

?每个操作符处理代表一道HDFS操作或MapReduce作业

Client

Client

HadoopDriverMetastore

Hadoop

Driver

Metastore

Compiler

Compiler

Hivc

Hivc实现原理

1

Hive执行流程

?操作符

操作符

描述

TableScanOperator

扫描hive表数据

ReduceSinkOperator

创建将发送到Reducer端的Key,Value对

JoinOperator

Join两份数据

SelectOperator

选择输出列

FileSinkOperator

建立结果数据,输出至文件

FilterOperator

过滤输

您可能关注的文档

文档评论(0)

分享吧 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档