Java开发分析大数据.doc

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Java开发分析大数据

Java 开发 2.0: 用 Hadoop MapReduce 进行大数据分析 成堆的数据如何变成信息金矿 Apache Hadoop 是目前分析分布式数据的首选工具,和大多数 Java? 2.0 技术一样,是可扩展的。从 Hadoop 的 MapReduce 编程建模开始,学习如何用它来分析数据,满足大大小小的商业信息需求。 内容 Google 在 2001 年发布图像有哪些信誉好的足球投注网站功能时,只有 2.5 亿索引图像,不到 10 年,这个巨大的有哪些信誉好的足球投注网站功能已经可以检索超过 100 亿个图像了,每分钟有 35 小时的内容上传到 YouTube。据称,Twitter 每天平均处理 5500 万 tweet。今年早些时候,有哪些信誉好的足球投注网站功能每天记录 6 亿条查询记录。这?就是我们讨论大数据的意义所在。 关于本系列 从 Java 技术首次亮相以来,Java 开发的格局已经发生了巨大的变化。得益于成熟的开源框架和可靠的租用式部署基础设施,现在已经可以迅速经济地汇编、测试、运行和维护 Java 应用程序了。在?本系列?中,Andrew Glover 将探索使这种全新开发范例成为可能的各种技术和工具。 如此大规模的数据一度仅限于大企业、学校和政府机构 — 这些机构有能力购买昂贵的超级计算机、能够雇用员 工保障其运行。今天,由于存储成本的降低和处理能力的商品化,一些小公司,甚至个人都可以存储和挖掘同样的数据,推动新一轮的应用程序创新。 大数据革命技术之一是 MapReduce,一个编程模式,是 Google 针对大规模、分布式数据而开发的。在本文中,我将介绍 Apache 的开源 MapReduce 实现,Hadoop,也有人将其称之为云计算的杀手应用程序。 关于 Hadoop Apache 的 Hadoop 框架本质上是一个用于分析大数据集的机制,不一定位于数据存储中。Hadoop 提取出了 MapReduce 的大规模数据分析引擎,更易于开发人员理解。Hadoop 可以扩展到无数个节点,可以处理所有活动和相关数据存储的协调。 Hadoop 的众多特性和配置使其成为一个十分有用且功能强大的框架,其用途和功能令人惊讶。Yahoo! 以及其他许多组织已经找到了一个高效机制来分析成堆的字节数。在单个节点上运行 Hadoop 也很容易;您所需要的只是一些需要分析的数据,以及熟悉一般的 Java 代码。Hadoop 也可和 Ruby、Python 以及 C++ 一起使用。 了解更多 MapReduce 如果您是本系列的读者,您可能已经见过 MapReduce 一两次了。在 “通过 CouchDB 和 Groovy 的 RESTClient 实现 REST” 中,我介绍了 CouchDB 如何利用 MapReduce 进行查看,接着在 “MongoDB:拥有 RDBMS 特性的 NoSQL 数据存储” 中我再次提到 MapReduce,处理 MongoDB 文档的机制。 作为处理大数据集的概念框架,MapReduce 对于使用许多计算机来解决分布式问题而言是高度优化的。顾名思义,这个框架由两个函数构成。map?函数专用于获取大数据输入,并将其分成小片段,然后交由其他进程进行操作。reduce?函数整理?map?收集的各个回应,然后显示最后的输出。 在 Hadoop 中,您可以通过扩展 Hadoop 自身的基类来定义?map?和?reduce?实现。实现和输入输出格式被一个指定它们的配置联系在一起。Hadoop 非常适合处理包含结构数据的大型文件。Hadoop 可以对输入文件进行原始解析,这一点特别有用,这样您就可以每次处理一行。定义一个?map?函数实际上只是一个关于确定您从即将输入的文本行中捕获什么内容的问题。 回页首 数据,无处不在的数据! 美国政府产生大量数据,只有一部分是普通民众所感兴趣的。各种政府机构免费发布关于 US 经济健康状况和更改社会人口统计资料的数据。U.S. Geological Survey (USGS) 发布国内外地震数据。 世界各地每天都有很多个小型地震发生。其中大多数发生在地壳深处,没有人能感觉到,尽管如此,但是监听站仍然会进行记录。USGS 以 CSV(或逗号分隔值)文件的格式发布每周地震数据。 每周文件平均不是很大 — 只有大约 100 KB 左右。但是,它可以作为学习 Hadoop 的基础。记住,Hadoop 有能力处理更?大的数据集。 跟踪震动 我近期从 USGS 网站下载的 CSV 文件有大约 920 多行。如 清单 1 所示: 清单 1. 清单 1. 一个 USGS 地震数据文件的行数统计 $ wc -l eqs7day-M1.txt 920 eqs7day-M1.txt CVS 文件内容如 清单 2 所示(这是前两行): 清单

文档评论(0)

3774384 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档