- 1、本文档共22页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
从零开始搭建大数据平台摘要屌丝的数据分析土豪要和屌丝做朋友屌丝的进化屌丝变土豪构建电视分析数据平台本案例是在为在为超级电视及乐视盒子数据提供用户行为的数据分析及挖掘服务而启动的数据平台项目的过程和经验分享。对超级电视的用户行为数据进行实时和离线分析,为运营提供决策支持。通过对电视数据挖掘来进行系统优化和服务提升。 白德鑫来自乐视网TV开放平台事业部历经电信、游戏、互联网三个行业,互联网电视拓荒者,目前负责乐视网超级电视运营平台、LetvStore 、TV数据挖掘分析平台、TV开放平台项目建设。微博:@leoobai G粉,钓鱼迷和摩托迷屌丝如何成为糕富帅苦逼屌丝配置两台MySQL(主从)记录日志,通过CronJob加上SQL方式在Slave进行统计分析发奋图强的屌丝尝试使用Cassandra将日志存储,使用Hadoop进行计算,然后把结果塞到MySQL里太多的数据组合,屌丝尝试使用MySQL集群加上Kettle进行统计分析鸟枪换炮屌丝开始使用大规模杀伤性武器Kafka、Storm、Hadoop、Hbase、Hive、Oozie、Sqoop苦逼屌丝的数据起点数据越来越大,需求越来越多,土豪上门了人员离职造成系统失控,Cassandra没人维护了人员离职对系统影响很大不一定时刻都有合适的人接替招聘成本很高,因为有技术的土豪都不愿意和屌丝做朋友人员流失往往带来技术的流失一个萝卜一个坑,萝卜走了坑要很久才能填上重回屌丝时代土豪和我们做朋友了数据量从年初的3个月翻一倍到目前每个月翻一倍数据每月一亿条增长到每周一亿条只用了半年不到超级电视及盒子的快速增长引起需求快速变化,从设备行为快速向用户行为转变一边找土豪一边增强自身能力为此成立了独立的数据研发团队及数据分析人员从年初我们也开始了鸟枪换炮的工作增强内功数据研发团队通过将近半年的努力,逐步搭建并完善了新的平台新平台通过Kafka接收其他系统、超级电视、乐视盒子等业务数据、日志数据、以及其他元数据(包括内容、应用)然后整合加工Storme通过整合Kafka加工之后的数据存入MySQL及Hbase中去通过Hadoop及数据服务为AD-HOC、开放数据平台、数据门户对各个业务部门提供数据服务这些是人才依靠招聘和内部自荐的方式进行扩充屌丝的豪华七件套数据入门第一套测试服务器两台4core cpu, 6G memory,20个线程数据入门第一套测试服务器1台4core cpu, 6G memory,20个线程数据入门第一套测试服务器1台4core cpu, 6G memory,20个线程数据入门第二套Storm 集群SpoutBoltWriterBoltParserBoltSpoutBoltWriterBoltParserBoltCbase……………SpoutBoltWriterBoltParserBolt组合计算Kafka消息随机数据入门第三套案例ROI分析数据量每月基本翻一倍,原有的系统架构根本无法满足新的数据需求Kettle方式的数据整合时间越来越久采用Hadoop+Storm等方案,数据量增长不会对数据挖掘产生特别大的影响。数据从原来每日抽取报表到实时数据随意查询整合还有很多事情要做案例启示不同的阶段选择不同的方案人员流失会导致技术流失技术储备和内部自荐要比招聘牛人更快对于新业务新平台都要小心对待,否则出现问题很难解决数据安全很重要,重要数据需要提供多份备份服务器多了就是爽。土豪-我和我的小伙伴希望和您交朋友Baidexin@Thanks!我们几乎是一夜之间进入了大数据时代!的的确确,数据才是这个时代最值钱的东西。比如,看上去支付宝的发展帮助银行增加了交易,但实际上银行业为之震动的是真正有价值的数据被支付宝拿走了。当支付宝掌握你庞大的消费数据,那就可以抽象出你的用户行为,并最终推送精准的广告或者新服务。电视行业中,连用户的概念都没有,就不奢谈数据了。电视行业之所以被广告主逐渐抛弃,是因为电视台根本不知道在电视机前的人是谁,是男是女,是老是少,更不用说节目观看频次,开机时间这些更精准的用户数据。电视台需要依靠第三方数据如AC Nielson去说服广告主,相反,互联网公司的用户数据全部都掌握在自己手中,想怎么投就怎么投。这是乐视这样的公司在致力改变的事情,用互联网的方式来推动电视业的变革。因为傻子都知道,电视最终会和手机一样,硬件不赚钱,数据和服务才是最终的利润来源。Kafka是一个高吞吐量分布式消息系统。linkedin开源的kafka。 Kafka就跟这个名字一样,设计非常独特。首先,kafka的开发者们认为不需要在内存里缓存什么数据,操作系统的文件缓存已经足够完善和强大,只要你不搞随机写,顺序读写的性能是非常高效的。kafka的数据只会顺序append,数据的删除策略是累积到一定程度或者
您可能关注的文档
最近下载
- 2024年银行考试-授信业务资格笔试参考题库含答案.docx
- 2023-2024学年重庆市高二上册数学期末试卷1(人教版).docx VIP
- 园林景观施工技术交底记录大全.docx
- 期末周末作业题(含解析)2024-2025学年人教新目标(Go for it)版英语八年级上册.docx VIP
- 2024山西省农商银行招聘1340人笔试模拟试题及答案解析.docx
- 人教版2024-2025学年度第一学期七年级期末数学试卷.docx
- 可信数据空间建设及应用参考指南1.0.docx
- 2024江苏高考政治真题(原卷版).docx
- 三年级数学上册专项练习(拔高题)北师大版.pdf
- Rhino5.0&KeyShot产品设计实例教程(第2版).ppt VIP
文档评论(0)