- 1、本文档共10页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
大数据简介与相关技术
大数据相关技术
大数据简介
大数据(bigdata),或称巨量资料,指的是所涉及的资料量
规模巨大到无法透过目前主流软件工具,在合理时间内达到获取、管理、处理、并整理成为帮助企业经营决策更积极目的的
资讯。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据
指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、
Variety(多样)、Value(低价值密度)、Veracity(真实性)。
大数据简介
BigData
Value
Velocity
Veracity
Variety
Volume
大数据简介
Volume(大量):数据量大,截至目前,人类生产的所有印刷材料的数据量是200PB,而历史上全人类总共说过的话的数据量大约是5EB。
Variety(多样):种类和来源多样化。这种类型的多样性也让数据被分为结构化数据和非结构化数据。
Value(低价值密度):价值密度的高低与数据总量的大小成反比。
Velocity(高速):数据增长速度快,处理速度也快,时效性要求高。这是大数据区分于传统数据挖掘的最显著特征。
Veracity:信数据的准确性和可信赖度,即数据的质量。
大数据相关技术
应
0
2
大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数
据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。首先科学的给出一个通用化的大数据处理技术框架,主要分为下面几个方面:数据采集与预处理、数据存储、数据清洗、数据查询分析和数据可视化。
大数据相关技术
包括移动互联网数据、社交网络的数据等,这些结构化和非结构化的海量数据是
零散的,也就是所谓的数据孤岛,此时的这些数据并没有什么意义,数据采集就是将这些数据写入数据仓库中,把零散的数据整合在一起,对这些数据综合起来进行分析。数据采集包括文件日志的采集、数据库日志的采集、关系型数据库的接入和应用程序的接入等。在数据量比较小的时候,可以写个定时的脚本将日志写入存储系统,但随着数据量的增长,这些方法无法提供数据安全保障,并且运维困难,需要更强壮的解决方案。
大数据相关技术
MapReduce作为Hadoop的查询引擎,用于大规模数据集的并行计
算,Map(映射)和Reduce(归约),是它的主要思想。它极大的方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式
Hadoop作为一个开源的框架,专为离线和大规模数据分析而
设计,HDFS作为其核心的存储引擎,已被广泛用于数据存储。
数据存储
数据清洗
大数据相关技术
系统中。
Hive的核心工作就是把SQL语句翻译成MR程序,可以将结构化的数据映射为一张数据库表,并提供
HQL(HiveSQL)查询功能。
Impala是对Hive的一个补充,可以实现高效的SQL查询。使用Impala来实现SQLonHadoop,用来
进行大数据实时查询分析。
Spark拥有HadoopMapReduce所具有的特点,它将Job中间输出结果保存在内存中,从而不需要读取
HDFS。
Nutch是一个开源Java实现的有哪些信誉好的足球投注网站引擎。它提供了我们运行自己的有哪些信誉好的足球投注网站引擎所需的全部工具,包括全
文有哪些信誉好的足球投注网站和Web爬虫。
Solr用Java编写、运行在Servlet容器(如ApacheTomcat或Jetty)的一个独立的企业级有哪些信誉好的足球投注网站
应用的全文有哪些信誉好的足球投注网站服务器。
Elasticsearch是一个开源的全文有哪些信誉好的足球投注网站引擎,基于Lucene的有哪些信誉好的足球投注网站服务器,可以快速的储存、有哪些信誉好的足球投注网站和分
析海量的数据。
大数据相关技术
对接一些BI平台,将分析得到的数据进行可视化,用于指导决策服务。
主流的BI平台比如,国外的敏捷BITableau、Qlikview、PowrerBI
等,国内的SmallBI和新兴的有数BI等。
控制权限的ranger是一个Hadoop集群权限框架,提供操作、监控、管理复杂的数据权限,它提供一个集中的管理机制,管理基于yarn的Hadoop生态圈的所有数据权限。可以对Hadoop生态的组件如Hive,Hbase进行细粒度的数据访问控制。通过操作Ranger控制台,管理员可以轻松的通过配置策略来控制用户访问HDFS文件夹
您可能关注的文档
- 《汽车节能与新能源技术应用》高职PPT完整全套教学课件.pptx
- 《嵌入式系统原理与开发》课件_第5章.pptx
- 《数据挖掘与机器学习》 课件 项目二 农产品信息可视化分析——NumPy、pandas 与 Matplotlib 库.pptx
- 《数据挖掘与机器学习》 课件 项目七 新闻文本分析——聚类.pptx
- 《数据挖掘与机器学习》 课件 项目三 建筑工程混凝土抗压强度检测——线性回归.pptx
- 《数据挖掘与机器学习》 课件 项目四 电商平台运输行为预测——逻辑回归.pptx
- 《数据挖掘与机器学习》 课件 项目五 加工厂玻璃类别识别——决策树、随机森林.pptx
- 《数据挖掘与机器学习》 课件 项目一 搭建数据挖掘与机器学习编程环境.pptx
- 《数据挖掘与机器学习》 课件2.2.2 pandas数据结构.pptx
- 《数据挖掘与机器学习》 课件2.2.3 数据清洗.pptx
- 2024年陕西咸阳亨通电力(集团)有限公司供电服务业务部直聘用工招聘145人笔试参考题库附带答案详解 .docx
- 2024年中建四局土木工程有限公司校园招聘笔试参考题库附带答案详解 .docx
- 2024年四川雅茶贸易有限公司公开招聘和考察聘用人员3人笔试参考题库附带答案详解 .docx
- 2024年中国烟草总公司辽宁省公司公开招聘拟录用人员(166人)笔试参考题库附带答案详解 .docx
- 2024江苏连云港中诚物业管理有限公司招聘工作人员1人笔试参考题库附带答案详解 .docx
- [毕节]2025年贵州毕节市引进人才649人笔试历年参考题库附带答案详解.docx
- 2024年度中国东航技术应用研发中心有限公司校园招聘笔试参考题库附带答案详解 .docx
- 2024年福建省厦门盐业有限责任公司春季人才招聘1人笔试参考题库附带答案详解 .docx
- 2024年山东省环保发展集团绿能有限公司职业经理人招聘2人笔试参考题库附带答案详解 .docx
- 2024年安徽滁州郊源阳光电力维修工程有限责任公司招聘41人(第一批次)笔试参考题库附带答案详解 .docx
文档评论(0)