- 1、本文档共30页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据技术及组件培训 2015-7 * 大数据技术概述 1 大数据存储技术 3 大数据计算技术 4 大数据采集技术 2 大数据分析技术 5 大数据 一系列大规模、高复杂度的数据集合,它的规模和复杂程度已经无法通过现有的数据库管理工具或是传统的数据处理应用在合理的时间内对其进行采集、管理、存储、检索、分享、传输、分析和可视化。 大数据技术 大数据技术作为新一代技术和体系架构,将能够利用较低的成本,通过高速捕获,发现并对超大量、众多类型的数据进行分析,以获得信息的价值。 大数据的特性 容量Volume 多样Variety 价值Value 速度Velocity 半结构化、非结构化数据的超大规模和增长 总数据量的80~90% 比结构化数据增长快10倍到50倍 是传统数据仓库的10倍到50倍 大数据的异构和多样性 很多不同形式(文本、图像、视频、机器数据等) 无模式或者模式不明显 不连贯的语法或句义 价值密度低,单条数据无价值,无用数据多,综合价值大 对未来趋势与模式的可预测分析 深度复杂分析(机器学习、统计建模、人工智能) 处理速度快, 要求系统在短时间内做出响应 实时分析而非批量式分析 数据输入、处理与丢弃 立竿见影而非事后见效 High performance –高并发读写的需求 高并发、实时动态获取和更新数据 Huge Storage –海量数据的高效率存储和访问的需求 类似SNS网站,海量用户信息的高效率实时存储和查询 High Scalability High Availability –高可扩展性和高可用性的需求 需要拥有快速横向扩展能力、提供7*24小时不间断服务 大数据时代下的系统需求 每天几百 GB、 几 TB 的资料,且持续成长中 储存 Storing 在接收数据的同时做必要的前置处理, 并区分数据处理的优先等级,离线计算与实时计算相结合 计算 Processing 如何有效的避免因硬件毁坏所导致的资料损毁和数据丢失 管理 Managing 如何从中挖掘出数据隐藏的模式和价值 分析 Analyzing 大数据处理挑战 大数据涉及的关键技术 需求 技术描述 关键技术 海量数据分布式处理 Hadoop 生态系统 针对大量数据进行分布式处理的系统框架 实时数据处理 Streaming Data 流计算引擎 非结构化数据处理 文本处理技术;自然语言理解; 多媒体处理技术… 文本内容分词与分析;图像、音视频分析 可视化交互界面 通过交互式可视化界面辅助用户进行分析 交互式可视化探索分析技术 智能数据分析 大规模机器学习技术 计算机模拟人类学习行为,包括特征提取、图形生成等 保护隐私数据与信息个体的对应关系等安全技术 高效存储和管理大规模数据 数据存储备份技术、数据放置和调度技术、数据溯源 存储、放置、调度大规模的数据 数据隐私保护 数据隐私防范保护措施与数据安全技术 大数据采集处理 大数据分析 存储组织管理 目录 大数据技术概述 1 大数据存储技术 3 大数据计算技术 4 大数据采集技术 2 大数据分析技术 5 大数据采集技术 实时采集:实时采集数据。 离线采集:定时、批量地采集数据。 数据库采集:关系型数据库,如oracle、mysql。 文件采集:定时生成的数据文件,比如日志。 数据流采集:系统实时产生的数据流。 采集方式 数据来源 数据库采集工具-Sqoop Sqoop 是传统数据库与Hadoop间数据同步工具,支持多种关系数据源和hive/hdfs/hbase的相互导入,同时提供了全量导入和增量数据导入的机制。 数据导入: 支持文本文件。 支持数据追加。 支持table列选取,支持数据选取。 支持map数定制。 支持压缩。 支持将数据导入到Hive/HDFS/Hbase。 数据导出: 支持将数据导出到表或者调用存储过程 支持insert、update模式 支持并发控制 通过使用map-reduce,sqoop提供了良好的并发性和容错,可以作为异构数据库同步工具。 日志采集工具-Flume Flume是一个分布式、高可靠、高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、HBASE等)的能力?。 高性能: 单台服务器性能可达200MB/S,并可采用集群模式提升性能。 线性扩展: 可部署多个agent来提供服务,线性扩展非常方便。 数据一致性: 当节点出现故障时,日志能够被传送到其他节点上而不会丢失。 目录 大数据技术概述 1 大数据存储技术 3 大数据计算技术 4 大数据采集技术 2 大数据分析技术 5 大数据存储技术 实时数据存储:要求高速读写。 离线数据存储:数据
文档评论(0)