大数据系列什么是大数据.pptVIP

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

大数据系列什么是大数据第1页,共16页。

什么是大数据第2页,共16页。

廖老师告诉你,大数据就是大量的数据。第3页,共16页。

什么是“大数据”?大数据很抽象,表示数据规模的庞大。大数据泛指巨量的数据集,因可从中挖掘出有价值的信息而受到重视。《华尔街日报》将大数据时代、智能化生产、无线网络革命称为引领未来繁荣发展的重大技术变革。目前对大数据尚未有一个公认的定义,不同的定义基本上是从特征出发,试图给出大数据的定义。第4页,共16页。

维基百科给出的定义:大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。第5页,共16页。

大数据有多大?第6页,共16页。

大数据:信息爆炸时代产生的海量数据第7页,共16页。大数据到底有多大?一天之中:互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件2940亿封(美国两年的纸质信件数量);社区帖子达200万个(《时代》杂志770年的文字量);卖出手机37.8万台(全球每天出生的婴儿37.1万)……

我国网民数量居世界之首,每天产生的数据量也位于世界前列。淘宝网站单日数据产生量超过5万GB存储量4000万GB百度公司目前数据总量10亿GB存储网页1万亿页每天大约要处理60亿次有哪些信誉好的足球投注网站请求一个8Mbps的摄像头一小时能产生3.6GB的数据一个城市每月产生的数据达上千万GB医院第8页,共16页。一个病人的CT影像数据量达几十GB全国每年需保存的数据达上百亿GB

大数据的特征第9页,共16页。数据量大(Volume)大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)类型繁多(Variety)包括网络日志、音频、视频、图片、地理位置信息等等价值密度低(Value)随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低速度快时效高(Velocity)处理速度快,时效性要求高,如雅安地震等。

“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。第10页,共16页。

11大数据不仅仅是“大”多大?至少PB级比大更重要的是数据的复杂性,有时甚至大数据中的小数据如一条微博就具有颠覆性的价值第11页,共16页。

如何让大数据更有意义是重点;对非结构化数据的内容理解是实现大数据资源化、知识化、普适化的核心非结构化海量信息的智能化处理:自然语言理解、多媒体内容理解、机器学习等麻省理工学院数字商业中心的首席科学家安德鲁麦卡菲对北美33家上市公司的高管进行了结构性访谈之后发现:运用大数据做决策的那些行业领先企业,比其竞争对手在产能上高5%,利润上高6%。第12页,共16页。

但现有的数据,不够联第13页,共16页。没有跨界的大数据不是真正的大数据

第14页,共16页。

软件是大数据的引擎第15页,共16页。

分析技术:第16页,共16页。数据处理:自然语言处理技术统计和分析:A/Btest;topN排行榜;地域占比;文本情感分析数据挖掘:关联规则分析;分类;聚类模型预测:预测模型;机器学习;建模仿真大数据技术:数据采集:ETL工具数据存取:关系数据库;NoSQL;SQL等基础架构支持:云存储;分布式文件系统等计算结果展现:云计算;标签云;关系图等存储结构化数据:海量数据的查询、统计、更新等操作效率低非结构化数据图片、视频、word、pdf、ppt等文件存储不利于检索、查询和存储半结构化数据转换为结构化存储按照非结构化存储解决方案:Hadoop(MapReduce技术)流计算(twitter的storm和yahoo!的S4)

文档评论(0)

151****3887 + 关注
实名认证
文档贡献者

神笔书生

1亿VIP精品文档

相关文档