- 1、本文档共35页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第十一章大数据调查法;第一节大数据调查概述;一、大数据的概念;
大数据的特征
;与传统数据的比较
大数据不是通过抽样调查所获取的样本数据,通过互联网存储、获取、交换和分析,克服抽样调查数据带来的许多随机和非随机误差。
要确保抽样调查的随机性,需要建立总体的抽样框;大数据对于特定的群体所收集的数据一般就是该群体的总体数据。
传统数据的产生过程是“搜集”,设计问卷后进行调查,问卷的针对性强,但应用范围受到限制;大数据分析重在“挖掘”,客观数据并不为任何一个课题而产生,而是对真实世界的自然记录,有利于研究者充分发挥想象力,可供研究的领域没有边界。;二、大数据的种类;b.按数据形式分类;三、大数据调查法概念及特点;大数据调查法的特点:
(1)从“大型数据”到“大数据”。大型数据可以拆分成为一系列小型数据集合用传统方法处理。大数据则不同,传统调查统计方法无法处理,必须使用新的模型、算法及新的计算机集成技术才能进行有效的采集与处理。大数据调查需要应对数据的异构性和质量的不一致性问题。
(2)从“随机抽样”到“观察总体”。其他调查方法往往运用随机抽样调查方法,通过样本调查的统计量去推断总体的参数值。大数据调查法采集、处理的数据,一般都不是个别的、局部的,也不是抽样的,而是对总体信息进行海量的抓取,通过海量数据直接观察总体,所以调查结果能更加贴近调查对象的总体特征,规避了抽样调查推断总体时经常出现的抽样误差等问题。;(3)从“精确测量”到“总体真实”。其他调查方法一般要求测量精确,强调“宁缺勿烂”,因为传统小数据分析的数据量本身并不大,任何一个错误数据都有可能对结果产生相对较大的负面影响,对错误数据必须花大精力去清除。大数据时代的原则变成了“要效率不要精确”,大数据的规模庞大,数据的精确性没有那么重要。因为海量数据可以更好地反映总体的真实,从而大大降低了错误信息造成的误差。
(4)从“因果关系”到“相关关系”。其他调查方法通常把揭示、验证社会现象之间的“因果关系”作为目标。??数据调查法通过海量数据揭示社会现象之间的相关关系,并据此成功做出预测。;大数据调查法与网络调查法的区别
网络调查虽通过网络收集数据,但其数据处理依然沿用传统方法。而大数据调查法,由于数据海量,传统技术和方法不可能采集和处理,因而在数据采集层面要依赖更高级的网络技术,在数据处理层面要依赖人们创造出的新算法及更高性能的计算机。
大数据调查法是比网络调查法更高一个层次的计算机调查方法。;第二节大数据调查的步骤;一、甄别与分类数据
(一)数据的甄别
数据的甄别,就是对大数据进行研究鉴别,明确调查课题需要什么样的大数据,如何获得、如何分析这些大数据。数据的甄别,主要包括以下内容:
一是,研究鉴别调查课题与数据类型、数据规模的关系。
二是,研究鉴别数据的来源和搜集数据中可能存在的问题。
三是,研究鉴别数据存储、处理和分析中可能存在的问题。;(二)数据的分类
根据人们活动的类别,可以将目前常用的大数据分为以下四类:
一是,关于日常生活的数据。
二是,关于主观态度的数据。
三是,关于交通出行的数据。
四是,关于空间分布的数据。;二、采集与提取数据
(一)探针采集法
探针采集法是一种采集数据的物理方法。探针是一种从路由器、交换机上把数据采集过来的专有设备。根据探针放置的位置不同,可分为内置探针和外置探针。此外,还需要Tap/分光器。
(二)网页采集法
网页采集是指从网页中获取数据。采集互联网上的数据,需要网页爬虫技术(利用编程语言编写脚本,模拟人的浏览行为,自动获取网页上的数据,形成一个网页备份,作为采集数据的载体)。爬虫系统采集,抓取策略的设计(如抓取URL队列设计,即先抓取哪个页面,后抓取哪个页面,等)和硬件设备水平,往往决定着抓取数据的最终质量。
(三)日志收集法
任何一个计算机系统,在运行过程中都会产生大量日志文件,其中蕴含着丰富的有价值的信息。大数据技术可以将这些日志文件收集起来加以研究。;(四)应用程序接口法
通常情况下,不同软件之间都会预先设定一个接口(如函数或HTTP接口),让使用者可在无需访问源码、无需理解内部工作机制的情况下,调用他人可共享的功能或资源。这种设定,对于获取数据的研究者来说是非常方便的。调查者通过应用程序接口,就能非常方便地采集、提取大量所需的数据。
(五)数据采集软件收集法
在大数据调查过程中,数据量会从TB级上升至FB级,甚至EB量级,这是传统数据采集、存储方式无法完成的。目前,市场上有许多数据采集软件平台和公司,能够为社会科学不同领域的调查研究者,提供各种个性化的数据采集服务。;三、审读和清理数据
(一)判断数据结构
审读数据,首先要判断数据的结构。按照结构化程度,数据可分为三类:结构化数据、半结构化数据和非结构化数
您可能关注的文档
- 社会调查教程(第八版) 知识点、关键概念、课后习题 第1章 社会调查概述.docx
- 社会调查教程(第八版) 知识点、关键概念、课后习题 第2章 社会调查的理论基础.docx
- 社会调查教程(第八版) 知识点、关键概念、课后习题 第3章 社会调查方案的设计.docx
- 社会调查教程(第八版) 知识点、关键概念、课后习题 第4章 社会调查的主要类型.docx
- 社会调查教程(第八版) 知识点、关键概念、课后习题 第5章 社会指标和社会测量.docx
- 社会调查教程(第八版) 知识点、关键概念、课后习题 第6章 文献调查法.docx
- 社会调查教程(第八版) 知识点、关键概念、课后习题 第7章 实地观察法.docx
- 社会调查教程(第八版) 知识点、关键概念、课后习题 第8章 访问调查法.docx
- 社会调查教程(第八版) 知识点、关键概念、课后习题 第9章 问卷调查法.docx
- 社会调查教程(第八版) 知识点、关键概念、课后习题 第10章 网络调查法.docx
最近下载
- 中国国家标准 GB/T 17359-2023微束分析 原子序数不小于11的元素能谱法定量分析.pdf
- 安捷伦1260操作规程.doc
- 2012新版PEP小学英语三年级上册第二单元导学案 2 - 副本.doc VIP
- 中波广播发射技术解读.ppt
- 创新创业教育改革项目申报材料【优秀范文】.pdf VIP
- 公安机关人民警察内务条令解读ppt课件.pptx VIP
- 中学生心理健康测试(MHT)结果与分析(20210607175638).pdf
- 【高中语文】整本书阅读《红楼梦》饮食文化+课件+++统编版高中语文必修下册.pptx VIP
- 城市地下管网建设实施方案.docx
- 教学计划(教案)-2024-2025学年人教版(2024)美术一年级上册.docx VIP
文档评论(0)