- 1、本文档共10页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
数据采集概述
大数据来源大数据主要来源于互联网公司、物联网设备、部分企业及政府部门的数据资源。在各行业海量的数据中,大约20%属于结构化数据,80%属于广泛存在于社交网络、物联网、电子商务等领域的非结构化数据。日志数据,如页面展示日志采集,采集页面浏览量(PageView,PV)和访客数(UniqueVisitors,UV);页面交互日志采集,采集用户的互动行为数据,量化获知用户的兴趣点和体验优化点等。
8.1.2数据采集途径1.系统日志采集系统日志采集主要是指收集互联网应用平台、移动互联网平台、公司业务平台等日常产生的大量日志数据,供离线和在线的大数据分析系统使用的过程。常见的采集工具有Hadoop的Chukwa、Cloudera的Flume、Facebook的Scribe等。
8.1.2数据采集途径2.互联网数据采集互联网数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息的过程。爬虫可分为通用爬虫(如百度、Google等通用搜素引擎)、自有爬虫、聚焦爬虫(如采用商业或开源爬虫工具爬取专业或研究领域数据)。
8.1.2数据采集途径网站公开API:北京市公共数据开放平台、中国国家统计局网站等会提供公开的数据。
8.1.2数据采集途径3.App移动端数据采集由于移动App实际上是通过HTTP与服务器进行交互的,因此可以采用抓包、Hook等方式完成数据的采集,也可以采用埋点技术完成数据采集。埋点是指在产品使用过程中,通过对用户事件的追踪,获取需要统计的用户数据,进而分析产品使用情况。针对一个手机端App来说,埋点有前端埋点、后端埋点(后端数据收集)两种方法。
8.1.2数据采集途径4.数据服务机构数据采集数据服务机构通常具备规范的数据共享和交易渠道,提供大数据采集服务、大数据交易服务、大数据分析服务、大数据可视化服务、大数据安全服务等,
8.1.2数据采集途径贵阳大数据交易所网站
8.1.2数据采集途径中国国家统计局网站
8.1.2数据采集途径5.企业大数据服务平台数据采集企业通过部署大数据服务平台,实现跨部门数据的传输、加载、清洗、转换和整合,以完成企业内部和外部的大数据采集工作。6.智能感知设备数据采集智能感知设备数据采集是指通过传感器、摄像头和其他智能终端自动地采集信号、图片或录像来获取数据。
您可能关注的文档
- 云计算与大数据技术 验证性实验指导 实验实践1-1.Linux (CentOS)安装过程遇到的问题及解决办法.pdf
- 云计算与大数据技术 验证性实验指导 实验实践11. Flink流式计算引擎及实践.pdf
- 云计算与大数据技术 验证性实验指导汇总 实验实践1.安装虚拟机软件-VirtualBox和安装CentOS操作系统---知识补充4.Typora 工具软件简介与安装及使用.pdf
- 云计算与大数据技术 验证性实验指导 实验实践知识补充1.linux操作系统介绍;补充2.linux操作系统基本设置与XShell及Winscp工具介绍.pdf
- 云计算与大数据技术 验证性实验指导 实验实践10.Spark的安装配置及使用实践;11. Flink流式计算引擎及实践.pdf
- 云计算与大数据技术 验证性实验指导 实验实践6.Hive 数据仓库安装配置及应用;8. Sqoop的安装与配置及使用;9. Scala 编程语言学习与实践.pdf
- 云计算与大数据技术 验证性实验指导 实验实践3.Linux操作系统实践-常用指令;4.JDK 安装与配置和MySQL安装与配置;5.大数据计算框架Hadoop3.0的安装部署与配置及HDFS常用指令.pdf
- 云计算与大数据技术 验证性实验指导 实验实践1.安装虚拟机软件-VirtualBox和安装CentOS操作系统;2.Linux操作系统基本环境设置和安装配置Xshell和Winscp.pdf
- 云计算与大数据技术 课件1.1云计算-云计算简述.pptx
- 1.2云计算-云计算与大数据简史.pptx
文档评论(0)