- 1、本文档共28页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于Hadoop平台的海量数据处理应用
Massive Data Processing Application Based on Hadoop
作者姓名:陈娜
专业名称:软件工程
指导教师:郭德贵 副教授
学位类别:工程硕士
答辩日期:2012年 6 月 日
未经本论文作者的书面授权,依法收存和保管本论文书面版本、电子版本的任何单位和个人,均不得对本论文的全部或部分 月 日
《中国优秀博硕士学位论文全文数据库》投稿声明
研究生院:
本人同意《中国优秀博硕士学位论文全文数据库》出版章程的 指导教师签名:
2012年 月 日
作者联系地址(邮编):吉林大学计算机科学与技术学院130012 作者联系电话
摘 要
摘 要
基于Hadoop平台的海量数据处理应用
面对互联网数据爆炸式的增长,传统单机处理方式已经慢慢落伍,新式的分布式并行处理日益成熟,将替代原有的处理方式。时下有关数据的海量处理和存储成为研究的热潮。在这其中,由Dong Cutting等人开发的Hadoop平台脱颖而出,成为分布式处理的宠儿。
Hadoop基础分布式架构主要由HDFS分布式文件系统和MapReduce计算模型组成。HDFS主要负责海量数据的存储,而MapReduce主要负责在海量数据上的计算。传统的日志处理一般都采用单机式的shell脚本处理,在面对今天海量数据处理中有些力不从心。而随着互联网社交网络的发展,社交人际关系的处理也成为当今互联网研究的热点。
在实验部分,通过搭建1个4台机器小集群,对比shell脚本处理,验证了hadoop在海量日志处理方面的优势。同时利用分布式Dijkstra算法,分析了陌生人之间的人际关系。
最后
关键词:
Hadoop,MapReduce,海量日志处理,分布式Dijkstra算法
I
ABSTRACT
Abstract
Massive Data Processing Application Based on Hadoop
Faced with explosive growth of Internet data, the traditional stand-alone approach has been slowly falling behind, and the new form distributed parallel processing has become more sophisticated which will replace the original approach. Nowadays, processing and storage of massive data has become a hot research. Hadoop platform developed by Dong Cutting and others stands out and become an most important research direction of distributed processing.
Hadoop basis distributed architecture is composed of HDFS distributed file system and MapReduce computation model. The HDFS is primarily responsible for the storage of massive data, and MapReduce is mainly responsible for the calculation of the massive data. The traditional log processing generally uses stand-alone shell script processing, when faceing the massive data processing, this method looks bloated. With the development of the Internet social networking, social-interpersonal treatment has also become a hot topic of today’s Internet research. On this basis, improve and distributed the single-source shortest path Dijkstra algorithm, and use it
文档评论(0)