大数据发展趋势.docx

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

??

?

??

大数据发展趋势

?

??

?

?

?

?

?

?

?

???

?

?

?

?

?

本文先根据大数据的不同处理方式,介绍几种不同形式大数据处理平台以及他们各自对应的几个典型应用,并指出了具有代表性的处理系统。之后对建立于这些系统框架上的大数据分析技术应用作出场景[本文来自于www.zz-nEws.Com]分析,并对大数据行业发展存在的问题和机遇进行了详细的阐述。

【关键词】大数据数据分析Hadoop机器学习

1引言

大数据在近几年迅速成为最具有热点的一个话题,科技、企业界乃至于各国政府都对其十分关注,大数据带来的机遇和挑战已经成为了各界的焦点。

以宏观的角度来看,大数据是物理世界、信息世界和人类世界的纽带,物理世界通过网络将反应自身特性的数据反映到信息世界中,人类世界凭借界面的交互手段对自己的数据向信息世界进行输入和操作。大数据的特征可总结为5点,即体量大、速度快、模态多、难辨识和价值大密度低五大特性,数据量的庞大并不是目前大数据的主要难点,真正的挑战在于数据类型的多样性、不确定性以及对数据处理即时响应的要求。

出于应对处理数据困难的探索,开源界推出了Hadoop,Spark等应对不同应用场景的大数据处理系统,同时相应的分析技术如:深度学习、可视化、知识计算等,这些大数据系统已经逐渐得到广泛的应用。

2大数据处理系统

2.1批量式数据处理系统

批量式数据有三个主要的特性:

(1)数据量巨大,目前已经达到PB级。

(2)数据来源与具体应用系统,精度相对较高。

(3)数据的价值密度相应低下,如视频数据,在视频播放的过程中,有价值的数据可能只有仅仅几秒,而这也需要专用的算法对有价值的数据进行提取,同时提取数据的行为将会消耗一定的时间,所以存在诸多限制,常常会造成处理结果不甚理想。

综合以上三点特性,批量式数据的处理需要相对比较成熟的技术和作业手段。

批量式数据的应用:

(1)有哪些信誉好的足球投注网站引擎:互联网是大数据的重要来源,知名的有哪些信誉好的足球投注网站引擎如美国的Google,我国的百度等大型互联网有哪些信誉好的足球投注网站引擎,通过与广告相关数据的批量处理,来及时改变广告投放的策略,根据分析用户的喜好,更改广告的分布以提高用户的点击量。

(2)社交网络:目前的社交网络和各大社交app每天都将产生巨大的数据量,新浪微博、微信等用户众多的社交网络每时每刻都在产生大量的非结构化数据(视频、图片、文本),针对这些数据进行批量式处理,可以帮助分析方发现社交网络中人际之间的潜在关系和他们的共同网络,根据这一共同特性进行更新升级,可以进一步提升用户的使用体验。

(3)电子商务:在淘宝、京东、亚马逊等电商网站上,产生大量的商品浏览记录、购买记录和评论记录,批量处理这些数据,商铺可以针对用户的热度对商品进行重新排布,app可以根据每个用户的喜好为其进行个性化推送,生产公司可以用处理结果对每个不同地区的市[本文来自于WWw.zz-news.coM]场方针进行部署。

(4)网络安全:在金融服务和情报机构中,可以通过对批量数据的处理来检测客户交易等操作是否存在异常,由此对潜在的欺诈行为进行预防预警。

代表性的处理系统:

2003年Google发布了GFS(GoogleFileSystem),2004年发布MapReduce编程模型,掀起了大数据开发的高潮,在学术界和产业界产生了强烈反馈。作为MapReduce及GFS的开源版本,Nutch项目Hadoop在2006年发布了HDFS和MapReduce,MapReduce成為大数据标准的数据处理模型。HDFS是分布式文件系统,负责数据存储,MapReduce是大数据编程模型,负责批量大数据运算。Hadoop已经形成了生态圈,其子项目有Hive,Hbase,Pig等。如图1所示。

2.2流式数据处理系统

流式数据还有以下几点共同特性:

(1)流式数据的每个单元都带有标志时间的标签和相关属性,所以处理流式数据通常是按照时间顺序来进行的。

(2)流式数据可以由无结构、半结构、结构化数据组成,故其处理流程复杂、数据纯度不高。

(3)流式数据具有活动性。

典型应用:

(1)金融银行业:金融银行行业的运营数据,具有短时效性,数据结构也混杂,对这些流式数据进行处理,可以帮助银行发现其内在特征,帮助银行做出实时决策。

(2)数据采集:随着物联网的兴起,NBIoT的广泛应用,终端设备产生海量实时数据。当前主要有传感器数据采集、日志采集、Web操作日志采集,使用流式系统获取实时数据信息,达到动态预警及通知功能。

2.3代表性的处理系统

2.3.1Storm系统

Storm诞生于BackType公司,随着BackType被Twitter收购,Storm转为开源并在GitHub上公布。在2014年9月正式成为Apache旗下的顶级项目。

文档评论(0)

189****4123 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档