Hadoop在淘宝的应用有哪些信誉好的足球投注网站中心.ppt

Hadoop在淘宝的应用有哪些信誉好的足球投注网站中心.ppt

  1. 1、本文档共34页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hadoop在淘宝的应用有哪些信誉好的足球投注网站中心概要1

Why Hadoop? 可扩展:不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根本。 经济:框架可以运行在任何普通的PC上。 可靠:分布式文件系统的备份恢复机制以及Map-Reduce的任务监控保证了分布式处理的可靠性。 高效:分布式文件系统的高效数据交互实现以及Map-Reduce结合Local Data处理的模式,为高效处理海量的信息作了基础准备。 HDFS简介 HDFS(Hadoop Distributed File System)是Hadoop提供的基础设施,Hadoop其它子项目均依赖于HDFS。 作为一个分布式文件系统,HDFS用于部署在低成本的硬件之上(使用普通PC的硬盘),因此其具有很高的容错性。 HDFS示意图 HDFS Shell HDFS除了提供API之外,还提供了一个HDFS Shell供用户访问文件系统。Shell提供了ls、cat、cp、touch、mkdir、rmr、tail、chmod、chown等接口。 Map-Reduce介绍 Map-Reduce是一个分布式的计算框架,用于大规模数据集的并行运算。 Map-Reduce大大降低了分布式计算的难度。 一个Map/Reduce 作业的输入和输出类型如下所示: (input) k1, v1 - map - k2, v2 - combine - k2, v2 - reduce - k3, v3 (output) Map-Reduce示意图 一个简单的例子 map函数 public void map(LongWritable key, Text value, OutputCollectorText, IntWritable output, Reporter reporter) throws IOException { String line = value.toString(); StringTokenizer tokenizer = new StringTokenizer(line); while (tokenizer.hasMoreTokens()) { word.set(tokenizer.nextToken()); output.collect(word, one); } } reduce函数 public void reduce(Text key, IteratorIntWritable values, OutputCollectorText, IntWritable output, Reporter reporter) throws IOException { int sum = 0; while (values.hasNext()) { sum += values.next().get(); } output.collect(key, new IntWritable(sum)); } Hive简介 Hive是一个基于Hadoop的数据仓库分析框架,由Facebook贡献给了开源社区。Hive定义了一种类似于SQL的语言-HQL,使用HQL可以方便使用SQL类似的语句分析数据,大大降低了数据分析的难度。 Hive支持Map-Reduce。Hive支持UDAF(User Defined Aggregate Function,用户自定义的聚合函数)。 Hadoop Job Web UI 目前Hadoop主要应用于以下几个方面: 1、为有哪些信誉好的足球投注网站引擎提供数据建索引。 dump中心每天凌晨从数据库将表拉到HDFS上,各系统使用各自的Map-Reduce算法生成需要的doc文档。 2、用户商务智能分析,比如使用协同过滤算法为用户推荐商品。 第一种方案 项目实施首先选择的方案是自己编写Map-Reduce Job来生成相关的文档数据。使用Hadoop二次排序的方式连接各文件。 主要优点: 1、过程完全可控,依赖少。 2、效率较高。 主要缺点: 1、需要分别针对收藏数据和交易数据写两个Hadoop Job。 2、代码量比较多,可维护性较差。 新方案-使用Hive 由于数据量比较大,有些记录格式有错,使得自己编写的Map-Reduce Job生成的数据总是少了一些。鉴于Hive诸多优点,所以项目中途改用Hive重写。 主要优点: 1、使用HQL,站在更高的逻辑层次上,代码量少,可维护性非常好。 2、只需编写一个UDAF便可聚合同一买家对应的收藏和交易买家列表。 主要缺点: 1、运行速度略慢。 2、依赖Hive,需要在生产环境部署Hive。

文档评论(0)

yaocen + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档