基于移动通信数据的流动人口统计中的Hive优化.pdf

基于移动通信数据的流动人口统计中的Hive优化.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于移动通信数据的流动人口统计中的Hive优化.pdf

第18卷第7期 Vol.18 No.7 2015年7月 软件工程师 SOFTWARE ENGINEER Jul. 2015 文章编号:1008-0775(2015)-07-57-03 基于移动通信数据的流动人口统计中的Hive优化 周天绮 (浙江长征职业技术学院计算机与信息技术系,浙江 杭州 310023) 摘 要:针对电信大数据在流动人口统计中的处理需求,采用Intel Hadoop发行版,设计Hive数据仓库并进行优 ® 化,重点对性能影响较大的join连接和数据倾斜问题进行了优化。实验表明,对于TB级数据,简单统计如count、sum等 可在10分钟以内完成,聚合统计如join、group by等可在30分钟左右完成,能有效支撑大数据环境下的流动人口统计和 监测。 关键词:Hive;优化;join;数据倾斜 中图分类号:TP301 文献标识码:A Hive Optimization Based on Mobile Communication Data for Floating Population Statistics ZHOU Tianqi ( Zhejiang Changzheng Vocational and Technical College ,Hangzhou 310023,China) Abstract:According to demand of the telecom data in floating population statistics processing,using Intel reg.Hadoop release,hive data warehouse design and optimization,focusing on on the performance influence larger join connection and data skew optimization,realize the massive telecom data,query and statistical,meet the floating population in the statistics and analysis. Keywords:hive;optimization;join;data skew 1 引言(Introduction) 2 Hive数据仓库设计(Hive data warehouse design) 电信运营商在移动通信业务运营过程中,获取了大量 移动通信大数据的流动人口业务需求分析:移动通信 客观、真实的用户历史数据,这些历史数据可以客观反映 数据的抽取、转换和导入;基于日、月、年的报表统计和 用户的消费行为,也可以反映影响用户消费行为的内外部 数据规模;数据仓库30TB数据。现方案采用10台服务器, 因素的变化情况[1] 。根据移动通信客户的来话与去话等话务 以实现数据的高速装载、查询和统计分析,如图1所示。 信息,结合客户身份资料,可以实现对特定区域人口的流 入、流出情况及流动类型等进行分析。 然而,基于移动通信数据的流动人口统计面临诸多挑 战:①数据源多样化:CDR(语音、SMS、GPRS、3G、 4G等)、计费信息、客户信息、基站参数等;②数据量大: 高达360TB

文档评论(0)

我的文档 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档