网站大量收购闲置独家精品文档,联系QQ:2885784924

《大数据导论》课件 第3章 大数据采集与预处理.pptx

《大数据导论》课件 第3章 大数据采集与预处理.pptx

  1. 1、本文档共91页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第3章大数据采集与预处理演讲人2024/12/24

大数据采集与预处理本章学习目标

了解大数据的来源和大数据采集的基本方法了解常用的数据采集工具熟悉数据预处理的基本方法培养兼收并蓄、去芜存菁的理念与价值观,以及精益求精的工匠精神

目录3.1认识数据3.2大数据的来源和采集途径3.3常用大数据采集工具的简介3.4数据预处理3.5使用OpenRefine对数据进行预处理3.6小结

3.1认识数据认识数据是处理和分析数据的前提,不仅要了解数据的属性(维)、类型和量纲,还要了解数据的分布特性,洞察数据的特征,检验数据的质量,以便后续的分析和处理工作。

3.1认识数据3.1.1数据的属性和类型所谓“属性”是指数据对象的特征,也称为数据字段、维。如图3-1所示,iris数据集(鸢尾花数据集)有4个属性(特征),分别为sepallength、sepalwidth、petallength和petalwidth,以及一个类别属性class。其中class属性为标称数据(表示类别的标称数据),其他4个属性为定量数据(数值型数据)。在数据分析领域,数据的属性也被称为特征、自变量、解释变量或观测值;数据的标签也被称为因变量(如iris数据集中的class属性)。图3-1iris数据集的属性

3.1认识数据(1)定性类型具有定性属性的数据是表示事物性质、规定事物类别的文字表述型数据。

(1)标称数据(NominalData):是一些符号或事物的名称,每个值代表某种类别、编码或状态,如性别分类中的“男”“女”;表示颜色的“红”“黄”“蓝”等。

(2)二元数据(binary):只有两个值或状态,0或1,又可以称为布尔属性(值为true或false)。

(3)序值型数据(ordinalvariable):其可能的值之间具备有意义的序或秩评定,如成绩{“差”“中”“良”“优”}。

以上3种类型都是对数据对象特征的定性描述,而不给出实际大小或数量。数据的基本属性类型可以分为两大类:定性属性和定量属性。

3.1认识数据(2)定量类型定量属性是描述数据对象属性的数值大小,如长度、速度、半径等的数量值,定量属性有整数(离散)和浮点数(连续)两种形式。

实际上,在许多真实的数据集中,数据对象通常是混合类型的,一个数据对象的属性可能包含上面列举的多种类型。

3.1认识数据3.1.2数据的量纲数据属性的值,有时是有单位的,称作量纲数据。所谓量纲,是指物理量的基本属性。例如,物理学中的7个基本量,长度、质量、时间、电流、热力学温度、物质的量和发光强度、的量纲分别用L、M、T、I、Θ、n和J表示。

有些数据是有量纲的,比如身高、长度、时间、质量、速度;而有些数据是没有量纲的,比如男女比例、两个长度之比。无量纲化,是指去除数据的单位限制,将其转换为无量纲的纯数值,便于不同单位或不同量级的指标能够进行比较和加权。

不同的评价指标往往具有不同的量纲,数据之间的差别可能很大,不进行处理会影响数据分析的结果。为了消除指标之间的量纲和取值范围差异对数据分析结果的影响,需要对数据进行标准化处理,也就是说,把数据按照比例进行缩放,使之落入一个特定的区间,便于进行综合分析。例如,归一化处理是把数变为[0,1]之间的小数,可以把有量纲的数据转换为无量纲的纯数值。

3.2大数据的来源和采集途径3.2.1大数据的来源大数据的来源非常广泛,如互联网、物联网、信息管理系统、科学实验和计算机系统的日志等。按照产生数据的主体来划分,大数据主要有三个来源:对现实世界的测量、人类的记录、计算机产生的数据

3.2大数据的来源和采集途径(1)对现实世界的测量通过感知设备获得的数据,这类数据包括传感器采集的数据(如环境监测、工业物联网和智能交通的传感数据),科学仪器产生的数据、摄像头的监控影像等。例如,在新冠肺炎疫情期间,许多商场都在门口安装了红外线体温检测仪,路过的行人在其视野范围内都会接受测量,所得的体温信息会被马上记录下来,这便是一种大数据的来源。

此类数据的特点是:数据模式比较固定、数据规模极大、数据质量参差不齐,数据的价值密度低。

3.2大数据的来源和采集途径(2)人类的记录由人类录入计算机形成的数据,如信息管理系统、社交软件、电子商务系统、企业财务系统等产生的数据。例如,个人的电子邮件、Word、照片、视频、音频、QQ空间、微信朋友圈、社交软件的聊天记录等,以及电子商务系统记录的交易数据、信用卡刷卡数据等。

此类数据的特点是:数据模式多样、数据规模较大、数据质量参差不齐、语义不明确,数据的价值密度低。

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档