网站大量收购闲置独家精品文档,联系QQ:2885784924

Hadoop大数据处理概述.ppt

  1. 1、本文档共31页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hadoop大数据处理 解决的问题 1、信息获取方式——应用对象 2、提取数据的思路——思路 3、 Hadoop的海量数据处理——工具 信息获取方式——应用对象 信息获取 网上信息收集和存储一般为人工和自动两种方式。 人工方式采用传统信息收集、分类、存储、组织和检索的方法。研究人员对网站进行调查筛选、分类、存储,再由专业人员手工建立关键字索引,再将索引信息存入计算机相应的数据库中。 自动方式通常由有哪些信誉好的足球投注网站程序完成信息的获取,有哪些信誉好的足球投注网站程序(robot、spider等)为一种自动运行的软件,其功能为有哪些信誉好的足球投注网站Internet上的网站或网页。 这种软件定期在Internet上漫游,通过网页间的超链接有哪些信誉好的足球投注网站新的地址,当遇到新的网页时,就索引该页并把它加到有哪些信誉好的足球投注网站引擎的数据库中,因此,有哪些信誉好的足球投注网站引擎的数据库得以定期更新。 信息获取方式的优缺 人工方式收集信息的准确性要优于有哪些信誉好的足球投注网站程序,但其收集信息的效率和信息覆盖面要低于有哪些信誉好的足球投注网站程序。 自动方式有哪些信誉好的足球投注网站目标过于庞大,数据库需要定期更新。需要考虑怎样遍历Internet,怎样提高Internet的遍历效率,怎样下载资源内容以及资源内容的字符编码处理等。 提取数据的思路——思路 海量数据提取信息 BigTable数据模型 BigTable:是一个经过排序后的分布式的、稀疏的、多维映射表 –分布式:数据是分布式存储的 –稀疏:列数可能很多,而某一行中可能只有少数列有数据 –多维映射表: ?数据索引由行关键字(Row Key)、列关键字(Column Key)和时间戳(Time Stamp)三个维度构成 ?数据以键/值映射的形式组织 Bitable示例 Bigtable示例 BigTable表的展开 直观感受BigTable的存储 ?面向列的存储 –提高访问少数列的效率 ?整行扫描 vs. 单列读取 –提高压缩比 ?杂 vs. 纯 BigTable系统架构 简单有哪些信誉好的足球投注网站框背后的复杂工作 Hadoop的海量数据处理——工具 MapReduce的来源 编程模型: –1956年John McCarthy(图灵奖获得者)提出的Lisp语言中的Map/Reduce方法 –Map输入是一个函数和n个列表,输出是一个新的列表,列表中的元素是将输入函数作用在n个输入列表中每个对应元素获得的计算结果。 –Reduce输入是一个函数和一个列表,输出是将函数依次作用于列表的每个元素后获得的计算结果 MapReduce原理 MapReduce运行机制 ?主控程序(Master):将Map和Reduce分配到合适的工作机上 ?工作机(Worker):执行Map或Reduce任务 基于Hadoop的海量数据处理框架 ?平台管理层:确保整个数据处理平台平稳安全运行的保障,包括配置管理、运行监控、故障管理、性能优化、安全管理等在内的功能。 ?数据分析层:提供一些高级的分析工具给数据分析人员,以提高他们的生产效率。 ?编程模型层:为大规模数据处理提供一个抽象的并行计算编程模型,以及为此模型提供可实施的编程环境和运行环境。 ?数据存储层:提供分布式、可扩展的大量数据表的存储和管理能力,强调的是在较低成本的条件下实现海量数据表的管理能力。 ?文件存储层:利用分布式文件系统技术,将底层数量众多且分布在不同位置的通过网络连接的各种存储设备组织在一起,通过统一的接口向上层应用提供对象级文件访问服务能力。 ?数据集成层:系统需要处理的数据来源,包括私有的应用数据、存放在数据库中的数据、被分析系统运行产生的日志数据等,这些数据具有结构多样、类型多变的特点。 并行WordCount-实现结构 从并行WordCount到MapReduce MapReduce处理方式 算法研究 反向索引 反向索引:一种重要的数据结构 –用于有哪些信誉好的足球投注网站引擎及其他需要对文本进行检索处理的应用中 –反向索引存储了单词与单词所在的一个或多个文档及相关信息的列表 –相关信息:出现次数、单词在文档中出现的位置等 –示例: ?“is”在D0出现1次,在D1出现2次,在D2出现1次 反向索引 PageRank算法 PageRank算法根据网页间的链接关系来确定一个网页的权重值 –PageRank值是Google有哪些信誉好的足球投注网站引擎建立网站排名的重要因素之一,用于衡量网页的相关性和重要性 –将网页A到网页B的链接视为网页A给网页B的权重进行投票,投票者(网页A)的自身权重和投票概率(一个网页存在多个链接)将影响被投票者(页面B)权重 PageRank算法设计 ?在开始执行时给所有页面赋上一个0到1之间的服从均匀分布的随机值 ?map函数计算每

文档评论(0)

w5544434 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档