- 1、本文档共51页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第九章大数据技术及应用大数据存储技术路线有三种:第一种:采用MPP架构的新型数据库集群,重点面向行业大数据,采用SharedNothing架构,通过列存储、粗粒度索引等多项大数据处理技术,结合MPP架构高效的分布式计算模式,完成对分析类应用的支撑,运行环境多为低成本PCServer,具有高性能和高扩展性的特点,在企业分析类应用领域获得极其广泛的应用。第二种:是一种基于Hadoop的技术扩展和封装,围绕Hadoop衍生出相关的大数据技术,应对传统关系型数据库较难处理的数据和场景,如针对非结构化数据的存储和计算等,充分利用Hadoop开源的优势,目前最典型的应用场景就是通过扩展和封装Hadoop来实现对互联网大数据存储、分析的支撑。这种技术包含几十种NoSQL技术,适合于对于非结构、半结构化数据处理、复杂的ETL流程、复杂的数据挖掘和计算模型。第三种:称为大数据一体机,是一种专为大数据的分析处理而设计的软、硬件结合的产品,由一组集成的服务器、存储设备、操作系统、数据库管理系统以及为数据查询、处理、分析用途而特别预先安装及优化的软件组成,高性能大数据一体机具有良好的稳定性和纵向扩展性。3、大数据存储技术路线第九章大数据技术及应用4、Hadoop与Spark的区别与联系作用不同:Hadoop是一个分布式数据基础设施,它将巨大的数据集分派到一个由多台普通计算机组成的集群中的多个节点进行存储,并索引和跟踪这些数据,让大数据处理和分析效率达到前所未有的高度。Spark则是一个专门用来对那些分布式存储的大数据进行处理的工具,它并不会进行分布式数据的存储。两者可合可分:Hadoop除了提供HDFS分布式数据存储功能之外,还提供了名为MapReduce的数据处理功能,完全可以抛开Spark。而Spark也不是非要依附在Hadoop身上才能生存,Spark可以选择Hadoop的HDFS,也可以选择其他基于云的数据系统平台,但Spark一般还是用在Hadoop上面。数据处理速度迥异:Spark因为其处理数据的方式不一样,比MapReduce要快得多。Hadoop和Spark是目前大数据处理领域主流的技术,都是大数据框架,但是各自存在的目的不尽相同,二者既有密切联系,又有着本质区别:第九章大数据技术及应用9.4.1传统数据分析与挖掘技术1、传统数据分析2、传统数据挖掘建立在关系数据模型之上的,主体之间的关系已经在系统内被创立,而分析也在此基础上进行。同时,传统分析是定向的批处理,需要定期等待提取、转换和加载(ETL)以及转换工作的完成。传统的数据挖掘算法主要有聚类、分类和回归:(1)聚类:聚类又称群分析,是研究(样品或指标)分类问题的一种统计分析方法,针对数据的相似性和差异性将一组数据分为几个类别。属于同一类别的数据间的相似性很大,但不同类别之间数据的相似性很小跨类的数据关联性很低。(2)分类:分类类似于聚类,但是目的不同,分类可以使用聚类预先生成的模型,也可以通过经验数据找出一组数据对象的共同特点,将数据分成不同的类,其目的是通过分类模型将数据项映射到某个给定的类别中,代表算法是CART(分类与回归树)。(3)回归:回归反映了数据的属性值得特征,通过函数表达数据映射的关系来发现属性值之间的一般依赖关系。它可以应用到对数据序列的预测和相关关系的研究中。(1)执行效率低,传统数据挖掘技术都是基于集中式的底层软件架构开发,难以并行化,因而在处理TB级以上数据的效率低。(2)数据分析精度难以随着数据量的提升而得到改进,特别是难以应对非结构化数据。9.4大数据分析与挖掘3、传统数据分析与挖掘技术的局限性第九章大数据技术及应用9.4.2新兴大数据分析技术3、Web数据挖掘分析1、神经网络2、深度学习典型的神经网络分为三类:第一类是用于分类预测和模式识别的前馈式神经网络模型,其主要代表为函数型网络、感知机;第二类是用于联想记忆和优化算法的反馈式神经网络,以Hopfield的离散型和连续型为代表。第三类是用于聚类的自组织映射方法,以ART模型为代表。深度学习源于人工神经网络的研究,其概念由Hinton等人于2006年提出,是机器学习中一种基于对数据进行表征学习的方法。目前,深度学习在语音识别、图像识别、自然语言处理等领域获得突破性进展。Web数据挖掘是一项综合性技术,可以从文档结构和使用集合中发现隐藏的从输入到输出的映射过程。目前,较为常用的Web数据挖掘算法主要PageRank算法、HITS算法和LOGSOM算法。第九章大数据技术及应用搭建测试环境前,先准备三台主机,三台主机分别命名为“mater”、“slave1”、“slave2”。
您可能关注的文档
最近下载
- 热带园林树木学知到智慧树期末考试答案题库2024年秋海南大学.docx
- 第11章 结构的稳定计算-丁幼亮.ppt
- 宿州学院2022-2023学年度《统计学导论》期末考试试卷(B卷)含参考答案.docx
- 四川省成都市2022-2023学年高一上学期期末调研考试政治试题.docx
- 凯越500X说明书(必威体育精装版文档).pdf
- 普拉提试题库(答案)..doc VIP
- 结构动力学知识讲解(154页)PPT.ppt
- 2023-2024学年四川省成都市高一上学期期末调研考试历史试题(解析版).docx
- 《新闻采访与写作》期末考试复习题库(含答案).docx
- (部编版五年级上册语文)课本内多音字汇总.doc
文档评论(0)