2016高校大数据及其处理架构.docVIP

下载本文档

3
0
约8.09千字
约 7页
2016-11-29 发布于北京
举报
版权申诉

2016高校大数据及其处理架构.doc

1、本文档共7页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

2016高校大数据及其处理架构

高校大数据及其处理架构　　高校中汇聚着大量的信息，从学生角度来看，包括联系方式等基本信息，食堂消费、住宿晚归等生活信息，选课、课后作业、借阅图书、成绩等学习信息，参与的社团、竞赛、讲座等第二课堂信息；从教师角度来看，包含教学任务、课件等教学信息，论文著作、科学研究数据等科研信息；从管理者的角度来看，包含学校的资产信息、师资信息、招生就业信息等。同时随着移动互联网以及物联网等新技术的兴起，学校师生主动产生和由设备自动收集的信息越来越多，如微博、微信等社交信息，各类有哪些信誉好的足球投注网站点击记录信息等。上述信息存在着数据量大、结构复杂、产生频率快的特点。这导致利用常用软件工具捕获、管理和处理此类数据所耗费时间超过了可容忍的时间。　　大数据的处理流程与一般数据的处理过程类似，可以定义为在合适工具的辅助下对广泛异构的数据源进行抽取和集成，将结果按照一定的标准统一存储，利用合适的数据分析技术对存储的数据进行分析从中提取有益的知识，并利用恰当的方式将结果展现给终端用户。具体来说可以分为数据抽取与集成、数据分析和数据展示。　　数据抽取与集成　　大数据的数据来源非常广泛，既包括传统的关系型数据库，也包括XML 等半结构化数据，以及以视频、音频、文本和其他形式存在的非结构化数据。数据抽取和集成要解决的主要问题就是收集各种碎片化的数据，对数据进行清洗，保证数据质量，同时根据时间演进不断更新数据模式，确定数据实体及其之间的关系，最终将数据按照统一的格式进行存储，以便提供给上层用来进行数据分析。　　目前高校已经基本建立了完备的管理信息系统、学习管理系统等，在统一数据中心中积累了大量的结构化数据；同时各类系统中还散布着大量的半结构化和非结构化数据。半结构化和非结构化的数据经过一定处理后，可以转化为更容易分析使用的结构化数据。　　数据分析　　经过抽取和集成得到的数据，需要经过分析挖掘其潜在的价值。传统的数据挖掘、机器学习、统计分析等方法仍然可以用来对数据进行分析，只是需要根据大数据的特征进行调整。首先，为了实现对海量数据的分析，需要依Map/Reduce 模型，将数据拆分处理，然后再将结果汇总，一个完整的分析可能会经过多层类似的处理过程；其次，大数据的应用通常具有实时性的特点，数据的价值会随着时间的流逝而递减，因此分析方法需要平衡处理的效率和准确率；最后，大数据一般构建在云计算平台之上，分析方法需要考虑与云计算平台的集成或做为一种云服务。　　数据展示　　数据分析得到的分析结果，需要以直观可理解的方式呈献给最终用户，在大数据时代，数据分析产生的结果有可能也是非常大量的，且结果之间的关联关系复杂、数据维度更多，数据可视化技术通过更加适合人类思维的图形化的方式展示数据分析结果，已经被证明是展示数据分析结果非常有效的方法。常见的可视化方法有：多维叠加式数据可视化、数据在空间、时间坐标中的变化和对比等，当然要将枯燥的信息转换为美丽的、令人印象深刻的图形，需要较高的技术素养和艺术素养。 . 数据来源　　传统的就业分析一般从就业单位、就业地区、所在院系专业、性别、签约类别、就业年份等维度来分析，得到的只是一般意义上的统计结果，对于指导单个学生的就业以及预测未来的就业情况发挥的作用比较有限。应用大数据分析技术，就可以将学生就业模型涉及到的学习情况、社团信息、生活信息、校外实习、参加的竞赛及获奖情况、所投公司当年的招聘计划、历届学生在所投公司的表现等众多的信息进行收集。以上海财经大学为例，可以从图1 所示的各类系统中抽取学生的各类信息，构成就业分析模型所需的各类数据。 2. 数据抽取与存储　　针对数据来源的不同，我们采取不同的数据抽取方式，对于结构良好的各信息系统的数据，我们采用ETL 工具如InformaticaPowercenter、Kettle 将数据抽取到HBase 数据库中；对于Web 网页这类非结构化数据，通过Nutch 进行抓取，Solr 对数据进行索引后存储到Hbase 数据库中，示意图如图2 所示。Hbase 数据库是一个开源的高可靠性、高性能、可伸缩、并非建立在关系模型基础上的分布式数据库，用以存储大规模结构化数据。 . 数据分析　　将就业分析模型所需的数据存储在Hbase 数据库后，可以利用Hive 对Hbase中的数据进行查询和分析。Hive 提供了一种简单的类SQL 查询语言，十分适合数据仓库的统计分析。通过Hive 我们可以实现传统数据仓库所实现的对就业数据的汇总统计分析，而且可以容易的扩展其存储能力和计算能力。　　除了数据统计分析之外，我们还可以利用Mahout 这个机器学习工具对数据进行监督学习和无监督学习。监督学习使用先验知识对数据进行分类；无监督学习则由计算机自己学习处理数据，并在做出判断后给予一定的激励或惩罚。在进行就业分析