- 1、本文档共151页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
工业大数据及其应用
05工业大数据分类与聚类
随着工业4.0和智能制造的兴起,工业大数据已成为推动制造业转型升级的重要力量。在海量数据中,如何有效地提取有价值的信息、优化生产流程、提高产品质量,成为了企业关注的焦点。工业大数据分类、聚类以及降维技术都是处理工业大数据的重要手段。它们可以帮助企业从海量的数据中提取有价值的信息,优化生产流程,提高产品质量。在未来的工业大数据应用中,这些技术将继续发挥重要作用,推动制造业的转型升级。本章将深入探讨工业大数据分类、聚类的作用及其相应的实现方法,同时介绍降维技术在处理工业大数据中的应用。
1.1分类分析基本概念分类算法是解决分类问题的方法,是数据挖掘、机器学习和模式识别中一个重要的研究领域。分类算法通过对已知类别训练集的分析,从中发现分类规则,以此预测新数据的类别。
分类任务的输入数据是记录的集合。每条记录也称作为实例或样例,可以用二元组(x,y)表示,其中x是属性的集合,而y是一个特殊属性,表示样例的类标号,即样例的分类属性或目标属性。分类就是通过学习得到一个目标函数f,属性集x通过目标函数映射到预先定义的类标号y。目标函数也称分类模型(ClassificationModel)。数据分类过程一般包含两个阶段,一是构建分类模型的学习阶段,二是基于模型预测目标类标号的分类阶段。分类模型一般有两大用途:一是进行描述性建模,分类模型可以用作解释性工具来区别目标数据中的不同类别;二是进行预测性建模,即使用分类模型来预测未知记录的类标号。
1.1分类分析基本概念分类技术实际上是一种根据输入数据集建立分类模型的系统方法。常用的分类技术包括支持向量机、决策树、朴素贝叶斯方法、K最近邻(KNN)算法、逻辑回归等。这些技术都使用某一种学习算法来确定分类模型,然后依据模型来拟合输入数据中类标号和属性集之间的联系。学习得到的模型不仅要能很好拟合输入数据,还要确保能够正确预测未知样本的类标号,建立分类的方法一般过程包括两个步骤,如图5-1所示,首先,利用目标数据取出一定数据作为训练集,据此进行学习算法的训练学习来建立分类模型;然后,取出部分数据作为检验集,用于模型的检验。
图5-1建立分类模型的一般方法
1.2分类分析方法主要的分类方法,包括k近邻法(KNN)、朴素贝叶斯方法、决策树、逻辑回归、支持向量机等,下面分别予以介绍。
1.2分类分析方法1.2.1k最近邻法(KNN)k最近邻法(k-NearestNeighbors,KNN)是一种基本分类与回归算法(本文只讨论分类算法)。它根据某个数据点周围的最近K个邻的类别标签情况,赋予这个数据点一个类别。具体的过程如下,给定一个数据点,计算它与数据集中其他数据点的距离;找出距离最近的K个数据点,作为该数据点的近邻数据点集合;根据这K个最近邻所归属的类别,来确定当前数据点的类别。
比如,在图5-2中,采用欧式距离,K的值确定为7,正方形表示类别一,圆形表示类别二。现在要确定灰色方块的类别,图中的虚线圆圈表示其K最近邻所在的区域。在虚线圆圈里面,除了待定数据点外,其他数据点的分类情况为:类别一有5个,类别二有2个。采用投票法进行分类,根据多数原则,灰色数据点的分类确定为类别一。
图5-2KNN算法实例
1.2分类分析方法1.2.1k最近邻法(KNN)在KNN算法中,两个数据点的距离是两个实例点相似程度的发映。可用的距离包括欧式距离、夹角余弦等。距离越小(距离越近),表示两个数据点属于同一类别的可能性越大。下面为距离公式(x为需要分类的数据点(向量),p为近邻数据点)。
当K个最近邻确定之后,当前数据点的类别确定,可以采用投票法或者加权投票法。投票法就是根据少数服从多数的原则,在近邻中,哪个类别的数据点越多,当前数据点就属于该类。而加权投票法,则根据距离的远近,对近邻的投票进行加权,距离越近权重越大,权重为距离平方的倒数,最后确定当前数据点的类别。权重的计算公式为(K个近邻的权重之和正好是1):
其中,KNN算法的原理很容易理解,也容易实现。它无须进行参数估计,也无须训练过程,有了标注数据之后,直接进行分类即可。它能够处理的情况不仅限于二分类问题,还包括具有多个类别的复杂场景,特别是在诊断设备或系统故障等应用中非常有效。
1.2分类分析方法1.2.1k最近邻法(KNN)KNN算法的主要缺点是计算量较大,对K值敏感,小样本下性能差,算法的解释性差。在KNN算法中,K值的选择非常重要。如果K值太小,则分类结果容易受到噪声数据点影响;而K值太大,则近邻中可能包含太多其他类别的数据点。上述加权投票法可以降低K能设定不适当的一些影响。根据经验法则,一般来讲,K值可以设定为训练样本数的平方根。
KNN算法在工业应用中非常广泛,如产品缺陷检测、协同过滤推荐、手写数字
您可能关注的文档
- 电气控制与PLC应用(FX5U) 课件 第1章 常用低压电器.pptx
- 电气控制与PLC应用(FX5U) 课件 第3章 继电器电路分析与设计.pptx
- 电气控制与PLC应用(FX5U) 课件 第4章 PLC概述.pptx
- 电气控制与PLC应用(FX5U) 课件 第8章 变频器多段速控制系统设计.pptx
- 电气控制与PLC应用(FX5U) 课件 第9章 步进电动机PLC控制系统设计.pptx
- 电气控制与PLC应用(FX5U) 课件 第10章 仓储单元定位控制系统设计.pptx
- 电气控制与PLC应用(FX5U) 课件全套 姚晓宁 第1--11章 常用低压电器--- 基于PID的吹浮乒乓球位置控制系统设计.pptx
- 电气控制与PLC应用(FX5U)_作业习题及答案 姚晓宁.docx
- 《数字化网络化智能技术:工业大数据及其应用》课件 第1章 绪论.pptx
- 《数字化网络化智能技术:工业大数据及其应用》课件 第2章 工业大数据感知与预处理.pptx
最近下载
- 2025年湖南科技职业学院单招英语模拟试题(附答案解析).pdf VIP
- 2025年高考数学重点题型归纳精讲精练5.4三角形四心和奔驰定理(新高考地区)(原卷版) .docx VIP
- 新生儿窒息复苏试卷附有答案.docx
- 三 气体压强.ppt VIP
- 图解---“健康中国2030”规划纲要-医学课件.pptx
- 历史:第6课《中古时代的欧洲》课件 (川教版九年级上).ppt
- DeepSeek-清华大学104页《DeepSeek:从入门到精通》.pptx
- FANUC 0i-MB操作说明书 完整版.pdf
- (八省联考)2025年新高考适应性演练 政治试卷合集(含答详解案).docx
- 赤泥坝施工方案.doc
文档评论(0)