网站大量收购闲置独家精品文档,联系QQ:2885784924

一种大数据智能分析平台的数据分析方法及实现技术.pdf

一种大数据智能分析平台的数据分析方法及实现技术.pdf

  1. 1、本文档共2页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

应用研究。I与应用

一种大数据智能分析

平台的数据分析方法及实现技术

蓝科李婧2

(1,中国科学院成都计算机应用研究所,四川成都610041;2.中国科学院成都文献情报中心,四川成都610041)

摘要:文章介绍了一种用于大数据智能分析平台的数据分析方法及实现技术,介绍了这种方法的需求和意义;和该方法的总体架构,以

及在数据传输、数据清洗和数据分析的实现;概述了这种技术高并发、大数据量的优化措施和跨平台的实现。

关键词:大数据;数据分析;数据挖掘

中图分类号:TP311文献标识码:A文章编号:1007—9416(2017)03—0104—02

1综述采用:Storm或SparkStreaming框架进行实现。SparkStreamnig

1.1简介将数据切分成片段,变成小批量时间间隔处理,Spark抽象一个持续

在数字化时代,需要新一代系统架构提升业务创新能力。在新的数据流称为DStream(离散流),一个DStream是RDD弹性分布式

一代系统架构中,大数据是核心要素。业务应用能否自主发现与自数据集的micro--batch~批次,RDD是分布式集合能够并行地被任

助获得高质量的大数据,就成为业务创新成败的关键。这就要在搭何函数操作,也可以通过一个滑动窗口的数据进行变换。

建大数据平台时,就着手大数据治理相关建设。2.3归档数据

1.2需求和意义归档数据是在线存储周期超过数据生命周期规划的数据,处理

从某种意义』二说大数据治理架构需要以元数据为核心、提高大的要求一般在分钟级或速度更慢。通常归档数据的计算量、数据量、

数据质量、透明化大数据资产、自助化数据开发、自动化数据发布、数据复杂度均超过试试数据处理。本平台中采用:Hadoop、Spark技

智能化数据安全,提升大数据平台服务能力,让大数据平台变得易术生态体系内的框架进行计算,这里不详细阐述。

使用、易获得、高质量。2.4非结构化数据

但是,目前很多技术解决方案存在诸多安全和效率隐患:业务通常非结构化的数据不一定具备字段,即使具备字段其长度也

系统多,监管力度大;数据量庞大且呈碎片化分布,急需提升大数据不固定,并且字段的又可是由可不可重复和重复的子字段组成,不仅

质量;数据格式不规范、难以在短时间内找到所需数据;数据在各阶可以包含结构化数据,更适合处理非结构化数据。常见的非结构化数

段的应用角度不同,需要降低系统间的集成复杂度。据包括XML、文本、图象、声音、影音、各类应用软件产生的文件。

针对包含文字、数据的为结构化数据应当先利用数据清洗、数据

2功能设计

治理工具进行提取,这项工作目前仍依赖技术员进行操作,由于格式

2.1总体架构的复杂性所以难以使用自动化方式进行较为高效的批处理。在治理

本文讲述的数据分析方法及实现技术是建立在Hadoop/Spark数据的过程中,需要根据腐况对数据本身额外建立描述数据结构的

技术生态圈的基础之上,以实现用户集成处理、、清理、分析的一个元数据、以及检索数据的索引服务,以便后续更佳深度利用数据。

统一的数据处理平台;按数据类别分为线数据、归档数据;按数据格2.5结构化数据

式分为非结构化数据、结构化数据;按数据模型分类为范式化模型结构化数据具备特定的数据结构,通常可以转换后最终用二维

数据、维度模型数据;按数据采集频度分为非实时数据、准实时数据的结构的数据,并且其字段的含义明确,是挖掘数据价值的主要

文档评论(0)

+ 关注
实名认证
内容提供者

好文件大家想

1亿VIP精品文档

相关文档