- 1、本文档共82页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据基础
主讲人: 刘天亮
liutl@
TEL: 南京邮电大学图像处理与图像通信江苏省重点实验室
目录
数据基础
数据特征
数据预处理
数据存储
数据分析
3.1数据基础
数据伴我们左右
我们先要了解一些有关数据的常识
3.1.1 数据属性
数据对象的特征(Characteristics) 或特性 (feature)
别名:
特征
维度
变量
属性集合:属性向量
数据对象往往包含一个或多个
描述数据对象的特征的量,即属性。
每个字段为
三种属性类型
类别型属性:
用于区分不同的数据对象的符号或名称,没有顺序关系。
类别属性之间的比较关系:
只有“相同”和“相异”两种。
能利用类别型属性的附加属性,
进行排序操作;
或转换为数值,完成数值计算等操作
属性类型
2. 序数型属性: 其属性值之间具有相对的顺序关系,或者存在衡量属性值间顺序关系的法则。
数据对象间的顺序关系为相对存在的,
具有“相同”、“相异”运算,
还可以参与比较大小或先后的运算。
序数型属性值也用于主观色彩较强的排序场合。
属性类型
3. 数值型属性: 使用定量方法表达属性值,通常使用整数或实数进行表征。区间型数值属性和比值型数值属性
区间型数值属性的起始值
可以在整个实数区间上取值,
其数值能进行差异运算。
比值型数值属性拥有基准点
(通常为零点)
离散型和连续型
3.2 数据特征
基本统计描述
数据的宏观表达
“探索式数据分析”的基础
基本统计描述
均值
中位数
方差
数据对象间的关系:相似度和相异度
数据间关系的度量
经常在统计和数据挖掘中使用
相似度和相异度的定义方式与适用领域和数据类型有关
相异度矩阵
不匹配率:
(二值类别型数据) Jaccard系数: 常用于比较两文档的相似性
类别型数据距离计算
类别型数据的距离度量可以直接用属性集中,对应位置不相等的属性的个数作为度量值。
公式中,p为两对象间的属性个数,m为两对象对应属性相等的个数。
Jaccard系数用来表示两个二进制串间的距离。其中,q为两字符串对应位置为同一值的
个数;r为两串对应位置上,第一个字符串为1,第二个字符串为0的个数;s与r相反。
数值型属性间的距离:明科夫斯基距离系
欧氏距离(L2)
曼哈顿距离 (L1)
明科夫斯基距离(LP)
分类
存在不确定性
属性不确定性
来源
本身误差
精度转换
特定应用需求
缺失值
数据集成
数据不确定性
3.3 数据预处理
目的:提供数据质量,使得可视化效果和质量得以提高;
使得后续的可视化工作简便易行。
根据厂家、需求和任务类型的不同,
数据预处理技术可分为:
数据清理、数据整合和数据变换。
标准系统架构
应用
数据库
ETL
抽取(Extract)
转化( Transform)
装载(Load)
数据仓库
数据产品
商业智能
分析
ETL的内部过程
数据清理
数据整合
原始数据通常含有杂质
“Garbage in, garbage out.”
处理
过程
3.3.1 数据质量
数据质量:数据质量高 - 对目标用途的符合度高
精确性(Accuracy)
完整性(Completeness)
一致性(Consistency)
适时性(Timeliness)
可信性(Believability)
可解释性(Interpretability)
数据可视化质量
数据墨水比(data-ink ratio):
数据可视化质量的衡量标准
3.3.2 数据预处理的步骤
1. 数据清洗
数据清理: 检测和清除数据中的错误和不一致,以提高数据质量
Data…
Data!
数据错误类型及处理方法
缺失值
常量代替缺失值
属性平均值填充
回归/分类预测式填充
人工填充
噪声值
回归分析
离群点分析
可视数据清洗
使用可视化工具,能提高数据清洗等预处理过程的效率。
左图是graph数据的node-link表示,中间是矩阵表示,右图是经过重排后的矩阵表示。
从右图中可以看出右下完整的白色部分,有可能是数据缺失造成的。
2. 数据整合/集成
数据整合包括 :
(1) 合并来自多个数据源的数据
(2) 向用户提供一个关于这些数据的统一视图
管理来自多个数据源的数据
数据1
数据2
数据3
数据
多数据源
结构冲突(structural conflicts):
不同的模式(schema)等
数据冲突(data conflicts):
重复的记录,冲突的记录属性等
多源数据集成需解决的问题:
属性匹配、去除冗余、数据冲突检测与处理
数据整合实例(1)
客户列表1
客户列表2
整合结果
您可能关注的文档
最近下载
- 【冲刺版】2025秋招北森必威体育精装版整理题库数学百题(可搜原题率高).doc
- 统编版高中政治选择性必修2法律与生活第一单元民事权利与义务测试卷(含答案解析).pdf
- 吞咽障碍之间歇性经口进食技术.pptx
- 2024年江苏省无锡市初三中考数学真题试卷含详解.docx
- L19G402_预应力高强混凝土实心方桩.pdf
- 2025高考作文热点素材——九大作文主题素材积累.docx
- 厦门市2024届高三毕业班第二次质量检测(二检)语文试卷(含答案).docx
- 筑梦青春职击未来.pptx VIP
- [北京语言大学]21春《唐宋古文研究》作业2参考答案.doc VIP
- 大理学院优秀个人简历优秀个人简历求职简历模板套装.doc VIP
文档评论(0)