如何进行大数据处理?大数据处理的方法步骤.pdf

如何进行大数据处理?大数据处理的方法步骤.pdf

  1. 1、本文档共1页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
如何进⾏⼤数据处理?⼤数据处理的⽅法步骤 1. ⼤数据处理之⼀ :采集 ⼤数据的采集是指利⽤多个数据库来 收发 ⾃客户端(Web、App或者传感器形式等)的 数据,并且⽤户可以通过这些数据库来进⾏简单的查 询和处理⼯作。⽐如,电商会使⽤传统的关系型数据库MySQL和Oracle等来存储每⼀笔事务数据,除 此之外,Redis和MongoDB这样的 NoSQL数据库也常⽤于数据的采集。 在⼤数据的采集过程中,其主要特点和挑战是并发数⾼,因为同时有可能会有成千上万的⽤户 来进⾏访问和操作,⽐如⽕车票售票⽹站和 淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署⼤量数据库才能⽀撑。并且如何在这些数据库之间 进⾏负载均衡和 分⽚的确是需要深⼊的思考和设计。 2. ⼤数据处理之⼆:导⼊/预处理 虽然采集端本⾝会有很多数据库,但是如果要对这些海量数据进⾏有效的分析,还是应该将这 些来 ⾃前端的数据导⼊到⼀个集中的⼤型分 布式数据库,或者分布式存储集群,并且可以在导⼊基础上做⼀些简单的清洗和预处理⼯作。也有⼀些⽤户会在导⼊时使 ⽤来 ⾃Twitter的 Storm来对数据进⾏流式计算,来满⾜部分业务的实时计算需求。 导⼊与预处理过程的特点和挑战主要是导⼊的数据量⼤,每秒钟的导⼊量经常会达到百兆,甚⾄千兆级别。 3. ⼤数据处理之三:统计/分析 统计与分析主要利⽤分布式数据库,或者分布式计算集群来对存储于其内的海量数据进⾏普通 的分析和分类汇总等,以满⾜⼤多数常见的 分析需求,在这⽅⾯,⼀些实时性需求会⽤到EMC的GreenPlum、Oracle的Exadata,以及基于 MySQL的列式存储Infobright等,⽽⼀ 些批处理,或者基于半结构化数据的需求可以使⽤Hadoop。 统计与分析这部分的主要特点和挑战是分析涉及的数据量⼤,其对系统资源,特别是I/O会有极⼤的占⽤。 4. ⼤数据处理之四:挖掘 与前⾯统计和分析过程不同的是,数据挖掘⼀般没有什么预先设定好的主题,主要是在现有数 据上⾯进⾏基于各种算法的计算,从⽽起到 预测(Predict)的效果,从⽽实现⼀些⾼级别数据分析的需求。⽐较典型算法有⽤于聚类的Kmeans、⽤于 统计学习的SVM和⽤于分类的 NaiveBayes,主要使⽤的⼯具有Hadoop的Mahout等。该过程的特点和挑战主要是⽤于挖掘的算法很复杂,并 且计算涉及的数据量和计 算量都很⼤,常⽤数据挖掘算法都以单线程为主。 在这⾥我还是要推荐下我 ⾃⼰建的⼤数据学习交流qq裙 :522 189307 , 裙 ⾥都是学⼤数据开发的,如果你正在学习⼤数据 ,⼩编欢迎 你加⼊,⼤家都是软件开发党,不定期分享⼲货 (只有⼤数据开发相关的),包括我 ⾃⼰整理的⼀份必威体育精装版的⼤数据进阶资料和⾼级开发教 程,欢迎进阶中和进想深⼊⼤数据的⼩伙伴。上述资料加群可以领取

文档评论(0)

祝朝兵 + 关注
实名认证
内容提供者

原版文件原创

1亿VIP精品文档

相关文档