hadoop高级编程——构建与实现大数据解决方案.doc

hadoop高级编程——构建与实现大数据解决方案.doc

  1. 1、本文档共54页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
hadoop高级编程——构建与实现大数据解决方案 篇一:Hadoop:大数据解决方案的常胜将军 Hadoop:大数据解决方案的常胜将军 ? 结构化数据、面向文档数据存储及大型处理。猜猜它是什么。 关键词:大数据解决方案 Hadoop Hive Mahout HBase Cassandra 架构大数据解决方案的软件工程师们都知道,业务分析有一项技术跨越了SQL数据库、NoSQL数据库,非结构化数据、面向文档数据存储及大型处理。如果你猜到了Hadoop,那你回答正确。Hadoop也是许多巨头公司具有的一个共性,如亚马逊、雅虎、AOL、Netflix、eBay、微软、谷歌、Twitter和Facebook。IBM甚至是走在时常的前沿,促进Hadoop进行企业分析。此开源模型无处不在,它在这个舞台上停留的五年,是一个真的角色,我们不得不为此感到惊讶。 导读:架构大数据解决方案的软件工程师们都知道,业务分析有一项技术跨越了SQL数据库、NoSQL数据库,非 Hadoop的未来 为了了解过去几年发生了什么,我们走访了Chuck Lam,《Hadoop在行动(Hadoop in Action)》一书的作者。Chuck说Hadoop还没有停下来休息。“整个生态系确实是进化,而且改变了许多。现在甚至出现了官方1.0版本。更重要的是,MapReduce的基础编程模型已经重新修订,且做了不少的改变。”一般来说,这些改变都向着有利的方面发展的。开发方向已经使得这个框架易于部署在企业中,并解决一系列的问题,如对于风险规避公司是问题之首的安全问题。 好处越来越多,包括高水平的可扩展性。此框架中的分布式计算意味着添加越来越多的数据,而不必改变添加它的方式。没有必要去改变格式,或打乱工作编辑的方式或决定哪一个应用完成的此工作。你只是随着工作的进行添加更的节点即可。你不必挑剔你存储的数据类型或它来源。无模式是此游戏的名称。该框架的并行计算能力还使商品服务器存储究竟的利用率更高。这意味着企业可以保存,使用更多的数据。无论哪个节点出现故障,它都没事。即使系统出现故障,也不会丢失数据,降低性能。 助力Hadoop技术 Hadoop现在也更加的灵活,允许业务做更的事情,处理更多的数据类型。如此强大的功能源于Hadoop的许多同伴项目,包括像Pig这样的语言,以及如下的可扩展解决方案: 1. Hive (数据仓库) 2.Mahout (机器学习和数据挖掘) 3.HBase (大型表格的结构化存储) 4.Cassandra (多主机数据库) 当然,此类型的解决方案并不一直都是美好好。Lam说主要的陷阱就是处理做出的假设。换言之,错不在我们的系统而在我们自己。“新技术并不是所有问题的灵丹妙药。正如NoSQL这类的一样简单,但你必须要更深一层地弄清楚你要解决的问题。”这可能意味着慎重地查看你的算法,而不是只是把你的员工扔给MapReduce,然后期望Hadoop自动扩展。使用模式的数据会影响你的扩展模式——尤其是当使用不平均是。然后线性扩展可能就不起作用了。再一次,这个并不是Hadoop本身的问题。Lam相信有工具在手的企业已经足够成熟了。这只是确保IT管理员熟悉这些工具,确保使用Hadoop的软件架构师知道怎样更有效地使用用这项技术。 篇二:Hadoop:分布式大数据处理架构 Hadoop:分布式大数据处理架构 由于具备低成本和前所未有的高扩展性,Hadoop已被公认为是新一代的大数据处理平台。就像30年前SQL(Structured Query Language)出现一样,Hadoop正带来了新一轮的数据革命。如今Hadoop已从初出茅庐的小象变成了行业的巨人,但Hadoop仍需继续完善。 基于Java语言构建的Hadoop框架实际上一种分布式处理大数据平台,其包括软件和众多子项目。在近十年中Hadoop已成为大数据革命的中心。MapReduce作为Hadoop的核心是一种处理大型及超大型数据集(TB级别的数据。包括网络点击产生的流数据、日志文件、社交网络等所带来的数据)并生成相关的执行的编程模型。其主要思想是从函数式编程语言借鉴而来的,同时也包含了从矢量编程语言借鉴的特性。 互联网巨头Yahoo!作为Hadoop框架的先驱研究者,在6年时间已经将Hadoop塑造成了极为成功的技术。但相比于SQL,Hadoop在某些方面仍然显得不够完善。这直接导致现今所有目光都集中在Hadoop供应商的身上。包括Amazon、Cloudera等公司带来众多的创新并提供强大的工具。Cloudera推出的CHD3包含众多的附加软件,可以帮助管理、运行Hadoop上的复杂任务,例如:Apache Mahout、Flume、Sqoop、Pig、Oozi

文档评论(0)

raojun00006 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档