- 1、本文档共45页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据处理Hadoop详解.ppt
HDFS可靠性 文件损坏 网络或者 机器失效 NameNode挂掉 常见的三种错误情况 文件完整性 CRC32校验 用其他副本取代损坏文件 Heartbeat Datanode 定期向Namenode发heartbeat 元数据信息 FSImage(文件系统镜像)、Editlog(操作日志) 多份存储 主备NameNode实时切换 文件损坏 网络或者 机器失效 NameNode挂掉 常见的三种错误情况 中国科学技术大学 HDFS缺点 低延迟数据访问 比如毫秒级 低延迟与高吞吐率 小文件存取 占用NameNode大量内存 寻道时间超过读取时间 并发写入、文件随机修改 一个文件只能有一个写者 仅支持append 中国科学技术大学 MapReduce是什么 源自于Google的MapReduce论文 发表于2004年12月 Hadoop MapReduce是Google MapReduce克隆版 MapReduce特点 易于编程 良好的扩展性 高容错性 适合PB级以上海量数据的离线处理 中国科学技术大学 MapReduce 1.0架构 中国科学技术大学 初识MapReduce wordcount程序能做什么? 中国科学技术大学 MapReduce不擅长什么 实时计算 像MySQL一样,在毫秒级或者秒级内返回结果 流式计算 MapReduce的输入数据集是静态的,不能动态变化 MapReduce自身的设计特点决定了数据源必须是静态的 DAG计算 多个应用程序存在依赖关系,后一个应用程序的输入为前一个的输出 中国科学技术大学 大数据处理方案--hadoop 2 目 录 背景介绍 1 Hadoop1.x系统框架介绍 2.2 总 结 3 Hadoop2.x系统框架介绍 2.2 Hadoop基本概念 2.1 Hadoop生态系统介绍 2.2 中国科学技术大学 Hadoop 2.0 生态系统构成(原生态) 中国科学技术大学 Hadoop 2.0 生态系统构成 中国科学技术大学 Hadoop 2.0 HDFS 中国科学技术大学 YARN是什么 资源管理和调度系统 管理集群中的资源(类似于操作系统) 将资源分配给上层的应用程序 好处 降低运维成本 有利于数据共享 提高资源利用率 中国科学技术大学 中国科学技术大学 中国科学技术大学 中国科学技术大学 中国科学技术大学 中国科学技术大学 第一V是Variety,海量数据有不同格式,第一种是结构化,我们常见的数据,还有半结据化网页数据,还有非结构化视频音频数据。 能够在不同的数据类型中,进行交叉分析的技术,是大数据的核心技术之一.语义分析技术,图文转换技术,模式识别技术,地理信息技术等,都会在大数据分析时获得应用. 第二点就是Volume,量比较大,我们有一些用户化每秒就要进入很多数据,很多客户内部都有几批数据,还有下面淘宝都是几PB数据,所以PB化将是比较常态的情况。 非结构化数据的超大规模和增长,占总数据量的80~90%,比结构化数据增长快10倍到50倍,是传统数据仓库的10倍到50倍 第三个是Velocity,因为数据化会存在时效性,需要快速处理,并得到结果出来。比如说,一些电商数据,今天的信息不处理没有结果化,将会影响到今天捕获很多商业决策。 1s 是临界点. 对于大数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无效的. 实时处理的要求,是区别大数据引用和传统数据仓库技术,BI技术的关键差别之一. 重庆抢劫案:周克华 第四个是Value:大量的不相关信息,不经过处理则价值较低,属于价值密度底的数据 海量数据分析非常复杂,使得过去靠单纯易于关于数据库BI已经不是太适合了。所以,可能需要新的创新。 数据越多越值钱,这个可能也是一个误区。很多公司其实都有很多数据,什么某度,某讯,他们都有很多数据,相比较而言淘宝的商业数据就更有价值 第一个是互联网企业,比如我们有用户做网络广告监测,每天有几百G技术,网络点击数据,他就会去分析这些点击日志来分析,哪些用户在哪些阶段点击广告,从而帮助商户们来判断他投广告是否有价值。 第二是智能电网,比如说,他们一个省有300个用电用户,每隔几分钟会将他们大宗数据发送到后端集群当中,之后集群就会对这些数亿条数据进行分析,来分析一下大概的用电模式,根据用电模式来生产电力,这样能够节省电力资源的浪费。 第三个方面是车联网,车载终端,是每隔几分钟都会上传一些数据到后端数据集群里面,最后会分析这些数据,来判断一下大致路况是什么情况,之后将有价值的路况信息给Push客户端里面,能够帮助客户节省在路上时间。 第四是医疗行业,每个人看病都有病例,如果我们把全国,几千万病例都汇总起来之后进行一
您可能关注的文档
- 大众集团营销分析详解.ppt
- 大伦敦规划介绍详解.ppt
- 大体积混凝土施工技术ppt详解.ppt
- 大体积混凝土施工规范详解.ppt
- 大体积混凝土温度裂缝的控制(PPTQC成果附照片)详解.ppt
- 大体积混凝土裂缝控制QC发布成果详解.ppt
- 大作业发现建筑之美详解.ppt
- 大修小知识(管道方面)详解.ppt
- 大修施工培训课件详解.ppt
- 大力神XDFSW详解.ppt
- 2021海湾消防GST-HX-420BEx 火灾声光警报器安装使用说明书.docx
- 2022海湾消防 GST-LD-8316Ex 手自动转换装置安装使用说明书.docx
- (小升初押题卷)江苏省小升初重难点高频易错培优卷(试题)-2024-2025学年六年级下册数学苏教版.docx
- 2023-2024学年吉林省吉林市舒兰市人教版四年级上册期末考试数学试题.docx
- 2023-2024学年北京市密云区北京版四年级上册期末考试数学试卷.docx
- 2024-2025学年广东省广州市天河区人教版三年级上册期末考试数学试卷.docx
- 2024-2025学年河北省唐山市丰南区人教版五年级上册期末测试数学试卷.docx
- 人教版道德与法治一年级下册第4课《我们有精神》课件.pptx
- 消防蝶阀介绍.pptx
- 室外消火栓设置场所及设置要求.pptx
文档评论(0)