网站大量收购独家精品文档,联系QQ:2885784924

大数据管理与应用 课件 第四章 数据采集与数据存储.pptx

大数据管理与应用 课件 第四章 数据采集与数据存储.pptx

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第四章数据采集与数据存储;数据是信息世界的基础性资源,但由于体量巨大,种类繁多,变化迅速,真实质差等问题导致难以充分发挥数据的价值。为此,诞生了数据采集与数据仓储技术,主要研究如何管理分析和利用数据。该技术是计算机核心技术之一,以其为核心的各种数据库应用管理,无可争议的改变了政府部门和企事业单位的运营和管理方式,随着数据库广泛应用和深度扩展,不仅是计算机和信息技术行业,包括技术管理,工程管理甚至决策人员在内的众多行业,都开始关注数据库技术的应用价值。

数据采集

关系型数据存储

非关系型数据存储

数据仓库;01;数据采集(DataAcquisition)是指将要获取的信息通过传感器转换为信号,并经过对信号的调整、采样、量化、编码和传输等步骤,最后送到计算机系统中进行处理、分析、存储和显示的过程。

数据采集是数据分析中的重要一环,它首先通过传感器或社交网络、移动互联网等方式获得各种类型的结构化、半结构化及非结构化的海量数据。

在大数据时代,面对数据来源广泛、数据类型复杂以及海量数据的井喷式增长和不断增长的用户需求,传统的集中式数据库的弊端日益显现,于是基于分布式数据库的大数据采集方法应运而生。

传统数据采集是从传感器等设备自动采集信息的过程。这种方法数据来源单一,数据结构简单,且存储、管理和分析数据量也相对较小,大多采用集中式的关系型数据库或并行数据仓库即可处理。

;1.1数据采集概述;传统数据采集系统

数据采集系统性能的好坏,主要取决于它的精度和速度。在保证精度的条件下,应该尽可能提高采样速度,以满足实时采集、实时处理和实时控制等对速度的要求。

一般都包含有计算机系统,这使得数据采集的质量和效率等大为提高,同时节省了硬件投资。

软件在数据采集系统中的作用越来越大,增加了系统设计的灵活性。

数据采集与数据处理相互结合日益紧密,形成了数据采集与处理相互融合的系统,可实现从数据采集、处理到控制的全部工作。

速度快,数据采集过程一般都具有“实时”特性。

随着微电子技术的发展,电路集成度的提高,体积越来越小,可靠性越来越高。

;大数据采集系统

日志采集系统

网络数据采集系统

网络数据采集系统是指通过网络爬虫和一些网站平台提供的公共API(如Twitter和新浪微博API)等方式从网站上获取数据。

网络爬虫的原理:按照一定的规则,自动抓取Web信息的程序或者脚本。

爬虫一般有数据采集、处理和存储三部分功能。

;大数据采集系统

网络数据采集系统

网络爬虫的类型:通用网络爬虫、聚焦网络爬虫、增量式网络爬虫以及深层网络爬虫等。

网络爬虫的工具:前常用的网页爬虫系统有ApacheNutch、Crawler4j、Scrapy等框架。

网络爬虫工作流程

;大数据采集系统

数据库采集系统

一些企业会使用传统的关系型数据库比如Mysql、Oracle等存储数据,此外,Redis和Mongodb的NoSQL数据库也常用于企业数据的采集。

针对此类大数据采集技术,目前主要流行的大数据采集分析技术是Hive。

在大数据采集技术中还有一个关键环节是转换操作,将清洗后的数据转换成不同的数据形式,由不同的数据分析系统和计算系统进行分析和处理。;企业内部数据采集

企业内部数据采集来源于各个业务生产系统,包括CRM数据、CC(呼叫中心)数据、财务数据、仓储数据、门店数据、销售数据、OA数据、物流数据、网站数据。

CRM数据,即企业客户管理系统的相关数据。

CC(呼叫中心)数据,即企业呼叫中心系统的相关数据。

财务数据,包括现金流、资产管理、盈利、负债等数据。

仓储数据,包括库存周转、库存结构、畅销、滞销等数据。门店数据,除线下销售外,还包括POS数据、动线视频数据等非结构化数据。

销售数据,包括渠道、平台、品类等维度的销售数据。

OA数据,是企业内部办公系统的相关数据,该数据可以为优化企业内部流程服务。

物流数据,包括出库、配送、调度、退换货等数据。

网站数据,即流量数据。;企业外部数据采集

企业外部数据是指数据由企业外部产生,企业通过合作、购买、采集等形式获得。企业外部数据通常包括竞争数据、营销数据、物流数据、行业数据等。

竞争数据,通常是通过购买或程序采集等形式,获得关于竞争对手的流量、销售、产品、营销等方面的数据,如竞争对手产品价格、竞争对手会员数据、营销投放渠道等。

营销数据,指企业通过营销或推广合作,获取自身或站外相关媒体、渠道的曝光、点击、投放等详细数据。

物流数据,指第三方的物流数据。

行业数据,指通过购买、调研等获得关于市场整体行情、市场趋势、用户结构、竞争环境等信息,常见于行业报告数据。;关系模型的数据结构

用二维表格(关系)表示实体和实体间关系的模型称为关系模型。;关系模型的数据操作与约束条件

操作主要包括查询、插入、删除和修改四类,其中查询

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档