社会调查教程(第八版) 知识点、关键概念、课后习题 第11章 大数据调查.docx

社会调查教程(第八版) 知识点、关键概念、课后习题 第11章 大数据调查.docx

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第十一章大数据调查法

一、知识点与关键词解释

1.大数据

大数据(bigdata或megadata),或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。西方学界一般从五个维度来描述大数据的特征:“体量”(Volume),“速度”(Velocity),“多样性”(Variety),“准确性”(Veracity)和“价值”(Value),统称为5V。

2.大数据调查法

大数据调查法是指调查者有目的、有计划地运用计算机和网络技术采集、处理、存储和分析实时记录社会现象及其活动而形成的海量数据的调查方法。

3.数据挖掘

大数据方法或者说大数据分析技术的核心是“数据挖掘”(datemining)。数据挖掘,又称为“爬梳”或KDD(KnowledgeDiscoverinDatabase),就是从海量数据中,提取能揭示有意义的潜在规律和人们感兴趣的知识的处理过程。数据挖掘要实现自行采集大数据,通常需要掌握专业数据抓取技术。大数据挖掘主要分为基于内容信息的数据挖掘和基于结构信息的社会计算。

4.机器学习

机器学习,是一门多领域交叉学科,涉及概率论、统计学、\t/item/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/_blank逼近论、\t/item/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/_blank凸分析、\t/item/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/_blank算法复杂度理论等多门学科。简单地说,机器学习就是让计算机根据历史数据自己去学习,以适应新的环境,模拟或实现人类的\t/item/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/_blank学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是\t/item/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/_blank人工智能的核心,是使计算机具有智能的根本途径。

5.结构化数据

结构化数据,通常是指用关系数据库方式记录的数据,数据按表和字段进行存储,字段之间相互独立。比如企业ERP、财务系统,医疗HIS数据库,教育一卡通,政府行政审批,其他核心数据库,等等。

6.半结构化数据

半结构化数据,是指以自描述的文本方式记录的数据,由于自描述数据无须满足关系数据库中那种非常严格的结构和关系,在使用过程中非常方便。很多网站和应用访问日志采用了这种格式,网页本身也是这种格式。

课后习题详解

1.什么是大数据,它有何特点?

大数据(bigdata或megadata),或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。西方学界一般从五个维度来描述大数据的特征:“体量”(Volume),“速度”(Velocity),“多样性”(Variety),“准确性”(Veracity)和“价值”(Value),统称为5V。

与传统数据不同,大数据不是通过抽样调查所获取的样本数据,而是人类活动的实时记录,并大都可以通过互联网存储、获取、交换和分析,这些数据可以克服抽样调查数据带来的许多随机和非随机误差。

2.简述大数据调查法及其特点。

大数据调查法是指调查者有目的、有计划地运用计算机和网络技术采集、处理、存储和分析实时记录社会现象及其活动而形成的海量数据的调查方法。与其他调查方法相比较,大数据调查法的特点是:

(1)从“大型数据”到“大数据”。大数据则必须使用新的模型、算法及新的计算机集成技术才能进行有效的采集与处理。大数据调查需要应对数据的异构性和质量的不一致性问题。数据的异构性主要表现为:一是数据类型从以结构化数据为主转向结构化、半结构化、非结构化三者的融合;二是数据产生方式的多样性带来了数据源变化,移动终端数据带有明显的时空特性;三是数据存储方式的变化,要求在集成的过程中进行数据转换,而这种转换的过程是非常复杂和难以管理的。质量的不一致性,是指数据量大不等同信息量增大或者数据价值提高,相反很多时候意味着信息垃圾的泛滥,使得数据清洗过程更加复杂。

(2)从“随机抽样”到“观察总体”。大数据调查法采集、处理的数据,一般都不是个别的、局部的,也不是抽样的,而是对总体信息进行海量的抓取,通过海量数据直接观察总体,所以调查结果能更加贴近调查对象的总体特征,规避了抽样调查推断总体时经常出现的抽样误差等问题。

(3)从“精确测量”到“总体真实”。大数据时代的原则变成了“要效率不要精确”,并不是说精确不好,而是因为在大

您可能关注的文档

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档