- 1、本文档共181页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
;;;;大数据的诞生背景和发展前景;大数据概述
1.大数据的定义
大数据本身是一个抽象的概念,在业内还没有统一的定义。大数据的研究机构Gartner给出的定义是:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
在维基百科中对大数据的定义是:大数据,又称巨量资料,指的是传统数据处理引用软件不足以处理它们的大或复杂的数据集的术语。
麦肯锡全球研究所对大数据的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。;大数据中“大”的界定范畴是动态的,从前的GB(1GB=1024MB)就是数据类型的巨大范畴,但是大数据出现后,在物理、基因等很多领域,TB(1TB=1024GB)级的数据已经很普遍,更有PB(1PB=1024TB)级,甚至EB(1EB=1024PB)级也不罕见。
2.大数据的类型结构
大数据的数据类型繁多,互联网作为大数据的主要来源,包含各种数据源,如声音和电影文件、文档、网络日记、元数据、E-mail、表格数据、图像、地理定位数据、文本书籍等。其主要分为结构化数据、半结构化数据和非结构化数据。因此,数据量的不断增长及数据类型的多样化都给大数据系统的存储和计算带来了不小的挑战。;1)结构化数据
结构化数据指能够用数据或统一的结构加以表示,包括预定义的数据类型、格式和结构的数据。常见的如Excel中的信息数据,企业用的人事系统、财务系统、ERP等中的数据等。
2)半结构化数据
半结构化数据就是介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构化数据(如声音、图像文件等)之间的数据,如电子邮件、用Windows处理的文字、在网上看到的新闻等。
3)非结构化数据
非结构化数据是指没有固定结构的数据,通常保存为不同类型文件的数据,如移动终端、社交网络产生的声音、图像、影像、留言、日志数据等信息。;3.大数据的特征
大数据通常被定义为具有4个特征,即volume、variety、velocity和value,这4项特征称???大数据的4V特征。
1)volume(大容量)
数据的体量决定了其背后的信息价值,随着各种移动端的流行和云存储技术的发展,现代社会的人类活动都可以被记录下来,因此产生了海量的数据。发送的微博、自拍的照片、戴的运动手环等包含的数据信息通过互联网上传到云端,各种数据聚集到特定地点的存储系统,如政府机构等,形成了体量巨大的数据。日志数据等信息。
2)variety(多样化)
数据多样性的增加主要是新型多结构数据,以及包括网络日志、社交媒体、互联网有哪些信誉好的足球投注网站、手机通话记录及传感器网络等数据类型造成的。;3)velocity(高速性)
高速性描述的是数据被创建和移动的速度。在高速网络时代,通过基于实现软件性能优化的高速计算机处理器和服务器,创建实时数据流已成为流行趋势。企业不仅需要了解如何快速创建数据,还必须知道如何快速处理、分析并返回给用户,以满足他们的实时需求。
4)value(价值密度低)
大数据的应用在物联网、云计算、大数据挖掘等技术迅速发展的带动下,呈现出它的完整过程:把数据源的信号转换为数据,再把大数据加工成信息,通过获取的信息做决策。因此,大数据价值的挖掘过程就像大浪淘沙,数据的体量越大,相对有价值的数据就越少。大数据的价值密度实际是比较低的,因为数据采集并非都是及时的,样本的数量有限,数据不完全连续。但是,当数据的体量越来越大时,就能从海量数据中心提取有价值的信息,为决策提供支撑。;注意:对于大数据的特征,有几种不同的观点。起初,IBM公司提出大数据具有“5V特征”,即volume(大容量)、variety(多样化)、velocity(高速性)、value(价值密度低)和veracity(真实性)。但由于互联网信息的繁多冗杂,无法分辨真假的信息日益增多,如刷单现象、建设虚假店铺,所以这类操作产生的数据具有不可靠性,veracity(真实性)这一特性不再是大数据的特征之一。;大数据本身是一种现象而不是一种技术。大数据技术是一系列使用非传统的工具来对大量的结构化、半结构化和非结构化数据进行处理,从而获得分析和预测结果的数据处理技术。根据大数据的处理过程,可将大数据关键技术分为大数据采集技术、大数据预处理技术、大数据存储及管理技术、大数据处理技术、大数据分析及挖掘技术、大数据展示技术等。;1.大数据采集技术
大数据采集技术是指通过射频识别数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得各种类型的结构化、半结构化及非结构化的海量数据。
1)大数据的来源
一般大数据的来源可以分为3种,即平台自
您可能关注的文档
- 生物药物分离技术:生物药物分离技术导论PPT教学课件.pptx
- 生物药物分离技术:细胞色素C的凝胶层析PPT教学课件.pptx
- 生物药物分离技术:细胞色素C的提取PPT教学课件.pptx
- 生物药物分离技术:细胞色素C提取液的中和PPT教学课件.pptx
- 生物药物分离技术:细胞色素C洗脱液的盐析PPT教学课件.pptx
- 生物药物分离技术:细胞色素C原材料的预处理PPT教学课件.pptx
- 信息技术(Windows 10+Office 2016):Excel 2016电子表格处理PPT教学课件.pptx
- 信息技术(Windows 10+Office 2016):PowerPoint2016演示文稿制作PPT教学课件.pptx
- 信息技术(Windows 10+Office 2016):Word 2016 文档处理PPT教学课件.pptx
- 信息技术(Windows 10+Office 2016):信息检索PPT教学课件.pptx
- 2024年幼儿园党支部书记抓党建工作述职报告.docx
- 2024年度领导班子民主生活会征求意见情况报告(2个样板).docx
- 领导班子成员2024年度民主生活会对照检查范文(四个带头).docx
- 党政综合部2024年工作总结及2025年工作计划.docx
- 镇党委副书记兼派出所所长关于2024年度民主生活会个人对照查摆剖析材料.docx
- 党建引领基层治理三年实施方案.docx
- 镇纪委书记关于2024年度民主生活会个人对照查摆剖析材料.docx
- 镇人大主席关于2024年度民主生活会个人对照查摆剖析材料.docx
- 县营商环境局2024年工作总结和2025年工作计划.docx
- 市人大分管民族华侨外事委员会副主任关于2024年度民主生活会个人对照检视材料(4+1).docx
文档评论(0)