- 1、本文档共31页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据分析一体机
数据分析一体机
目录
2
大数据的4V特征
“4V”是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。大数据将有新型的展现方式:大型控制中心和移动终端,实现数据的实时处理和快速决策。
体量Volume
多样性Variety
价值密度Value
速度Velocity
非结构化数据的超大规模和增长
总数据量的80~90%
比结构化数据增长快10倍到50倍
是传统数据仓库的10倍到50倍
大数据的异构和多样性
很多不同形式(文本、图像、视频、机器数据)
无模式或者模式不明显
不连贯的语法或句义
大量的不相关信息
对未来趋势与模式的可预测分析
深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)
实时分析而非批量式分析
数据输入、处理与丢弃
立竿见影而非事后见效
大数据的特征
大数据技术将被设计用于在成本可承受(economically)的条件下,通过非常快速(velocity)的采集、发现和分析,从大量化(volumes)、多类别(variety)的数据中提取价值(value),属于IT 领域新一代的技术与架构
数据分析的价值
分析技术:
数据处理:自然语言处理技术
统计和分析:A/B test; top N排行榜;地域占比;文本情感分析
数据挖掘:关联规则分析;分类;聚类
模型预测:预测模型;机器学习;建模仿真
大数据技术:
数据采集:ETL工具
数据存取:关系数据库;NoSQL;SQL等
基础架构支持:云存储;分布式文件系统等
计算结果展现:云计算;标签云;关系图等
存储
结构化数据:
海量数据的查询、统计、更新等操作效率低
非结构化数据
图片、视频、word、pdf、ppt等文件存储
不利于检索、查询和存储
半结构化数据
转换为结构化存储
按照非结构化存储
解决方案:
Hadoop(MapReduce技术)
流计算(twitter的storm和yahoo的S4)
一些相关技术
1、对现有数据库管理技术的挑战
传统的数据库部署不能处理数TB 级别的数据,也不能很好的支持高级别的数据分析。急速膨胀的数据体量即将超越传统数据库的管理能力。
2、经典数据库技术并没有考虑数据的多类别(variety)
SQL(结构化数据查询语言),在设计的一开始是没有考虑非结构化数据的。
3、实时性的技术挑战:
一般而言,像数据仓库系统、BI应用,对处理时间的要求并不高。因此这类应用往往运行1、2天获得结果依然可行的。但实时处理的要求,是区别大数据应用和传统数据仓库技术、BI技术的关键差别之一。
网络架构、数据中心、运维的挑战:
技术架构的挑战:
人们每天创建的数据量正呈爆炸式增长,但就数据保存来说,目前的技术改进不大,而数据丢失的可能性却不断增加。
如此庞大的数据量首先在存储上就会是一个非常严重的问题,硬件的更新速度将是大数据发展的基石。
领域共性问题
大数据处理技术手段
Social Media
Machine
Sensor
Data
Media
Web
Clickstream
Mobile
Apps
Call Log
Splunk
BI/
Reporting
Customized
Solutions
Database /
Data Warehouse
较常见的解决方案
大数据储存
大数据处理
数据分享
数据检索
数据分析
数据展现
分布式软件架构
并行计算框架
分布式存储
横向扩容(Scale-out) 架构
存储与运算合一
Big Data 运算与存储,单一架构解决
9
传统并行计算架构
并行计算 + 分布式存储
运算
存储
传统存储架构
计算与存储一体,计算向数据靠拢,高效专用存储模式
为程序员屏蔽通性、并发、同步与一致性等问题
任务之间无依赖(share-nothing),具有高系统延展性 (scale-out)
利用Hadoop 的特性
目录
10
一体机概念和分类
一体机是软件与硬件相结合的集成系统产品,其一般集数据处理、数据传输、数据存储三方面于一体。一体机通过预先集成、测试、优化,能够实现快速部署、简化IT基础架构,节省资源,提升系统高可用性和可扩展性。
11
类型
产品
数据仓库一体机
Oracle Exadata、Teradata、IBM PureData System(for nzsql)、EMC Greenplum
数据库一体机
Oracle Exadata、IBM PureData System(for DB2)、华为FusionCube(for Oracle)
中间件一体机
Oracle Exalogic、IBM Pure Application System
内存数据库一体机
SAP HANA、Oracle Exalytics
其他
IBM Pure Flex System、HP
文档评论(0)