- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
??
?
??
大数据环境下的智慧校园建设与应用
?
??
?
?
?
?
?
?
?
???
?
?
?
?
?
贾海天陈晨
摘要:学校信息化建设已经经历了10多个年头,现有系统达到几十个,各个系统独立运行;同时安防监控,在线课程资源,上网行为非结构化数据资源在智慧校园建设中的作用已经体现。文章根据学校现状提出适合高校信息化建设的数据模型。主要通过Hadoop分布式系统架构解决结构化数据和非结构化数据之间的融合,为数据分析和决策提供依据。
关键词:Hadoop;非结构数据;数据标准;Spark
中图分类号:TP3文献标志码:A文章编号:2095-2945(2019)20-0162-02
Abstract:Schoolinformationconstructionhasbeenconductedformorethan10years,theexistingsystemhasreacheddozens,andeachsystemrunsindependently;atthesametime,securitymonitoring,onlinecurriculumresources,andtheroleofonlinebehaviorunstructureddataresourceshavebeenreflectedintheconstructionoftheintelligentcampus.Accordingtothepresentsituationoftheschool,thispaperputsforwardadatamodelwhichissuitablefortheinformationconstructionofcollegesanduniversities.ThemainpurposeofthispaperistosolvethefusionbetweenstructureddataandunstructureddatathroughHadoopdistributedsystemarchitecture,soastoprovideabasisfordataanalysisanddecision-making.
Keywords:Hadoop;unstructureddata;datastandard;Spark
1概述
智慧校園建设中大数据构建已经成为重要的发展方向,为发现数据价值而开展数据治理成为各方的关注问题,本文通过Hadoop及其生态圈建设构建模型,提出基于Hadoop分布式系统基础架构思想的解决办法,主要涉及数据抽取与清洗、Hadoop数据存储与分析、数据标准构建和智能分析与可视化,大数据构建在智慧校园建设中将起到关键性的作用。本文所有实现工具均采用开源技术完成。
2Hadoop及其生态圈介绍
大数据建设目前采用的主流技术为Hadoop技术框架,Hadoop技术框架下可以完成数据仓库构建。数据仓库包括操作性系统和数据仓库系统两部分。操作性系统由各个形式的业务数据组成,主要包括关系数据库、TXT或CSV文件、外部系统数据。这些数据通过抽取、转换和装载进入数据仓库系统。
2.1大数据处理架Hadoop
Hadoop是Apache开源软件分布式计算平台,生态系统包括:Flume,Hive,Hbase,Pig,Sqoop,Spark等。其中,Hive用于数据仓库,通过HQL语言查询HDFS上的数据。Hbase是Key/Value架构,运行于HDFS平台之上。其生态圈较为广泛的应用完全可以支撑大数据平台运行。
2.2HDFS分布式文件系统
HDFS分布式存储系统(HadoopDistributedFileSystem,HDFS),采用主/从架构设计,HDFS主节点和数据节点数据处理过程如下:(1)Client端发送添加文件到HDFS的请求到NameNode;(2)NameNode告诉Client端如何分发数据块以及分发的位置;(3)Client端把数据分块(block),然后把这些块分发到DataNode中;(4)DataNode在NameNode管理下根据一定的算法复制数据块,保持数据冗余。
2.3Spark并行计算框架
Spark并行计算框架与MapReduce基于文件并行计算框架不同,是基于内存计算的并行处理架构,Spark是MapReduce的一种替代方案,将执行模型抽象为有向无环图执行计划,将中间输出结果存储在内存中。兼容HDFS和Hive等技
文档评论(0)