- 1、本文档共59页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hadoop与数据立方
原理和实践;Hadoop发展史;主要内容;主要内容;主要内容;什么是HDFS?;HDFS适合做什么?;HDFS不适合做什么?;主要内容;设计目标;系统架构;主要内容;Example:HDFS如何写文件?;HDFS副本放置策略;Example:HDFS如何读文件?;主要内容;NameNode可靠性问题;;主要内容;主要内容;传统并行计算模型MPI与MapReduce的比较; 数据具有什么样特征的计算任务是MapReduce可以处理的?;海量数据存储;主要内容;实例:wordcount;MapReduce运行系统(库)把所有相同key的记录收集到一起 (shuffle/sort)
用户实现reduce function对一个key对应的values计算
求和sum
Reduce输出key, sum
;主要内容;主要内容; 数据立方是南京云创存储科技有限公司完全自主研发的国产大数据云处理平台,具有从PB级的数据中挖掘出有价值信息并进行快捷、高效处理的能力。;数据立方的创新与优势;2012年11月初,云创存储携手Intel推出了数据立方云计算一体机;主要内容;数据立方体系架构;DataCube(数据立方)的索引机制;分布式并行计算架构;并行计算架构上作业执行过程;MapReduce架构的job提交过程较为复杂:
1, 客户端将作业提交到JobTracker有较长的延迟。
2,JobTracker将作业处理为MapReduce 任务后,通过心跳信息将任务返回给TaskTracker,此过程中也存在延迟。
相对于MapReduce架构,数据立方的作业提交是实时性的,在提交作业之前所需程序已经分发到所有计算节点。;;数据立方具有良好的扩展性;节点宕机任务重新分配;主要内容;互联网数据处理案例;案例背景; ;网络拓扑图; ; ;实时汇总系统信息图;主要内容;测试环境介绍;测试环境介绍;测试结果;;入库性能;入库性能;SQL语句;;谢谢!
文档评论(0)