- 1、本文档共133页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
数据挖掘与知识发现第二章数据这是不是数据?数据类型数据质量数据预处理相似性和相异性度量考虑你收到了某个医学研究者发来的邮件,内容如下:尽管有些疑虑,你还是开始着手分析这些数据。 看起来没有什么不对。你开始分析,数据只有1000行,两天后你认为取得了一些进展。去参加会议,并与一位负责参与该项目的统计人员交谈。1、数据类型数据集的不同表现在很多方面用来描述数据对象的数据可以具有不同的类型-定量或定性的数据集可能具有特定的性质,如数据集包含时间序列或彼此之间具有明显联系的对象数据的类型决定我们应使用何种技术和工具来分析数据!1、数据集全称是什么?数据对象的集合2、数据对象是什么?记录、点、向量、模式、事件、案例、样本、观测、实体3、数据对象用什么来描述?属性、变量、特性、字段、特征、维 下表显示包含学生信息的数据集 每行对应于一个学生,而每列则是一个属性,描述学生的某一方面,如平均成绩(GPA)或标示号(ID)1.1、属性与度量一、先来看看什么是属性属性是对象的性质或特质,因对象而异,或随时间而变化例如:眼球的颜色因人而异,物体的温度随时间而变测量标度是将数值或符号值与对象的属性相关联的规则或函数例如:踏上浴室的磅秤称体重;将人分为男女;清点会议室的椅子数,确定是否能为与会者提供足够的座位二、属性类型 属性的性质不必与用来度量他的值的性质相同 属性类型告诉我们,属性的哪些性质反映在用于测量他的值中。例1:雇员年龄与ID号这两个属性都可以用整数表示雇员的平均年龄有意义,而平均ID却无意义年龄有最大最小值,而整数却无此限制但用整数来表示时,并未暗示有限制例2:线段长度每条后继线段都是通过最上面的线段自我添加而形成的二、属性的不同类型属性包括四种类型:标称(nomial)序数(ordinal)区间(interval)比率(ratio)属性的类型也可以用不改变属性意义的变换来描述:例: 如果长度分别用米和英尺度量,其属性意义是否有变化。计算平均长度时,有什么变化?例:温度 我们说“温度2度是1度的两倍”,用下列哪种测量有意义? 绝对标度?摄氏度?华氏度?三、非对称的属性 对于非对称的属性,只有非零值才是重要的例1:对象是学生,属性是学生是否选修某门大学课程。对某个学生,如果他选择了对应某属性的课程,则该属性取1,否则取0。1.2、数据集的类型2、数据质量2.1、测量和数据收集问题2.2、关于应用的问题3、数据预处理3.1、聚集聚集:将两个或多个对象或属性合并为单一的对象或属性目的(1)数据约减减少数据对象或属性的数目,从而可使用高复杂性算法(2)改变尺度例如城市可以聚集为区域、省、以及国家(3)提高数据的稳定性对象或属性群的行为通常比单个对象或属性的行为更加稳定3.2、抽样抽样是一种选择数据对象子集进行分析的常用方法经常被用于数据的事先调查和最终的数据分析 统计学中的意义 抽样是因为得到感兴趣的整个数据集的费用太高、太费时间 数据挖掘中的意义 抽样是因为处理所有的数据的费用太高、太费时间 有效抽样的定义如果样本是有代表性的,则使用样本与使用整个数据集的效果几乎一样样本具有足够的代表性的前提是它近似地具有与原数据集相同的感兴趣的性质 例子: 如果数据对象的均值是感兴趣的性质,则只要样本具有近似于原数据集的均值,样本就是有代表性的简单随机抽样:选取任何特定项的概率相等 1、无放回随机抽样 每个选中项立即从构成总体的所有对象集中删除 2、有放回随机抽样 对象被选中时不从总体中删除分层抽样:将数据分为若干种类型,从各个类型中等概率抽取 数据对象各类中抽取相同个数的对象各类中抽取相同比例的对象抽样与信息损失如何确定样本容量例:取数据点的一个小样本,逐对计算点之间的相似性,然后形成高度相似的点组。然后从这些组每组取一个点,则可以得到具有代表性的点的集合。 从小样本开始,然后增加样本容量直到得到足够容量的样本不需要在开始就确定正确的样本容量需要评估样本是否足够大的方法例子:假定使用渐进抽样学习一个预测模型尽管预测模型的准确率随样本容量增加,但是在某一点的准确率的增加趋于稳定通过掌握准确率随样本逐渐增大的变化情况,并通过选取接近于当前容量的其他样本,估计于稳定点的接近程度在稳定点停止增加样本容量3.3、维归约维灾难 随着维度增加,数据在它所占据的空间中越来越稀疏对分类任务的影响没有足够
您可能关注的文档
- 三种干燥方法对蔬菜干制品品质的影响研究.doc
- 小学音乐课件-第二单元-情景表演(小乌鸦爱妈妈)--苏少版-(共12张PPT)ppt课件.pptx
- 工厂安全生产基础知识培训PPT课件.ppt
- 八年级学生数学核心素养的测量与评价.doc
- 汽车专业技能高考模拟试题13题库试卷-复习资料-招聘考试-培训-专业-必威体育精装版.docx
- 桥梁健康监测综述.pdf
- 盐城导游词(通用5篇).docx
- 电气控制与PLC精品课程.ppt
- 化工厂废水零排放方案.doc
- 未满16周岁禁止骑电动车主题班会活动记录.docx
- 安徽省池州市东至县第二中学2025届化学高三上期中考试试题含解析.doc
- 安徽省池州市 2025届化学高一上期中质量检测试题含解析.doc
- 2025届四川省外国语学校高考仿真卷化学试卷含解析.doc
- 黑龙江省安达市田家炳高级中学2025届高三3月份模拟考试历史试题含解析.doc
- 福建省三明一中2025届高三压轴卷生物试卷含解析.doc
- 广东省普宁华侨中学2025届高考化学倒计时模拟卷含解析.doc
- 2025届湖北省荆州市成丰学校高考考前提分生物仿真卷含解析.doc
- 安徽省蚌埠田家炳中学2025届高三化学第一学期期中综合测试模拟试题含解析.doc
- 安徽省蚌埠市田家炳中学、五中2025届化学高一上期末联考试题含解析.doc
- 2025届福建省长泰县第一中学高三第二次模拟考试生物试卷含解析.doc
文档评论(0)