- 1、本文档共27页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
3 Sept 2008 ? NEUSOFT SECRET 3 Sept 2008 ? NEUSOFT SECRET 大数据:变革世界的关键资源 * 第一V是Variety,海量数据有不同格式,第一种是结构化,我们常见的数据,还有半结据化网页数据,还有非结构化视频音频数据。 能够在不同的数据类型中,进行交叉分析的技术,是大数据的核心技术之一.语义分析技术,图文转换技术,模式识别技术,地理信息技术等,都会在大数据分析时获得应用. 第二点就是Volume,量比较大,我们有一些用户化每秒就要进入很多数据,很多客户内部都有几批数据,还有下面淘宝都是几PB数据,所以PB化将是比较常态的情况。 非结构化数据的超大规模和增长,占总数据量的80~90%,比结构化数据增长快10倍到50倍,是传统数据仓库的10倍到50倍 第三个是Velocity,因为数据化会存在时效性,需要快速处理,并得到结果出来。比如说,一些电商数据,今天的信息不处理没有结果化,将会影响到今天捕获很多商业决策。 1s 是临界点. 对于大数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无效的. 实时处理的要求,是区别大数据引用和传统数据仓库技术,BI技术的关键差别之一. 重庆抢劫案:周克华 第四个是Value:大量的不相关信息,不经过处理则价值较低,属于价值密度底的数据 海量数据分析非常复杂,使得过去靠单纯易于关于数据库BI已经不是太适合了。所以,可能需要新的创新。 * SNS:社交网络服务 * 云计算只是一个概念,很多人也都会,一说起云计算,就觉得会想吐的感觉,现在大家都在说云计算,各种各样的服务,各种各样的公司,各种云,总在说云计算是一个概念。百度,也是一个很典型的云计算平台,他有很多很多的数据会在上万台服务器上出运算,这个可能在传统的一些计算环境是无法满足的。 天河2号:80000处理器,312万个计算核心 【图像化】 Oozie 工作流的分析 flume 日志数据收集 Ambari 供应、管理、监控hadoop集群 * * 数据魔方、淘宝指数,聚石塔 * 漫谈大数据应用技术 1.大数据背景介绍 2. HADOOP生态系统 3.大数据的应用 大数据的特征 体量Volume 多样性Variety 价值密度Value 速度Velocity 超大规模和增长 是传统数据仓库的10倍到50倍 大数据的异构和多样性 很多不同形式(文本、图像、视频、机器数据) 大量的不相关信息 对未来趋势与模式的可预测分析 深度复杂分析(机器学习、人工智能等) 实时分析而非批量式分析 数据输入、处理与丢弃 立竿见影而非事后见效 淘宝网站 单日数据产生量超过5万GB 存储量4000万GB 百度公司 目前数据总量10亿GB 存储网页1万亿页 每天大约要处理60亿次有哪些信誉好的足球投注网站请求 一个8Mbps的 摄像头 一小时能产生3.6GB的数据 一个城市每月产生的数据达上千万GB 医院 一个病人的CT影像数据量达几十GB 全国每年需保存的数据达上百亿GB 大数据对系统的需求 High performance –高并发读写的需求 高并发、实时动态获取和更新数据 Huge Storage –海量数据的高效率存储和访问的需求 类似SNS网站,海量用户信息的高效率实时存储和查询 High Scalability High Availability –高可扩展性和高可用性的需求 需要拥有快速横向扩展能力、提供7*24小时不间断服务 * 大数据与云计算的关系 商业模式驱动 应用需求驱动 云计算本身也是大数据的一种业务模式 大数据是落地的云 云计算是将计算和存储,由本地转移到了云端。 大数据则是提供了一套新的计算和存储工作原理。 二者有本质的不同,但却是一个完整的体系。大数据可以是云计算的心脏,云计算是大数据服务的通路。 大数据市场分析 1 2011年-2016年中国大数据市场规模 2 各行业大数据市场规模 政府、互联网、电信、金融的大数据市场规模较大,四个行业将占据一半市场份额。 由于各个行业都存在大数据应用需求,潜在市场空间非常可观。 2011年是中国大数据市场元年,一些大数据产品已经推出,部分行业也有大数据应用案例的产生。2012年-2016年,迎来大数据市场的飞速发展。 2012年中国大数据市场规模达到4.7亿元,2013年大数据市场将迎来增速为138.3%的飞跃,到2016年,整个市场规模逼近百亿。 内容提要 1.大数据背景介绍 2. HADOOP生态系统 3.大数据的应用 * 分析技术: 数据处理:自然语言处理技术 统计和分析:A/B test; to
文档评论(0)